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内 容 提 要 


卷 积 神经 网 络 是 深度 学 习 最 重要 的 模型 之 一 。 本 书 是 卷 积 神 经 网 络 领域 的 入门 
读物 ， 假 定 读者 不 具备 任何 机 器 学 习 知 识 。 书 中 尽 可 能 少 地 使 用 数学 知识 ， 从 机 器 
学 习 的 概念 讲 起 ， 以 卷 积 神经 网 络 的 最 新 发 展 结束 。 

本 书 首先 简单 介绍 了 机 器 学 习 的 基本 概念 ， 详 细 讲 解 了 线性 模型 、 神 经 网 络 和 
卷 积 神经 网 络 模型 ， 然 后 介绍 了 基于 梯度 下 降 法 的 优化 方法 和 梯度 反 向 传播 算法 ， 
接着 介绍 了 训练 网 络 前 的 准备 工作 、 神 经 网 络 实战 、 卷 积 神经 网 络 的 应 用 及 其 发 展 。 
针对 每 个 关键 知识 点 ， 书 中 给 出 了 基于 NumPy 的 代码 实现 ， 以 及 完整 的 神经 网 络 
和 卷 积 神经 网 络 代码 实现 ， 方 便 读者 训练 网 络 和 查阅 代码 。 

本 书 既 可 以 作为 卷 积 神经 网 络 的 教材 ， 也 可 以 供 对 卷 积 神经 网 络 感 兴趣 的 工程 
技术 人 员 和 科研 人 员 参 考 。 
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近 几 年 ， 深 度 学 习 在 学 术 界 和 工业 界 掀起 革命 ，Python 语言 作为 
机 器 学 习 的 首选 语言 也 异军突起 。 然 而 , 大 多 数 Python 语言 的 教材 侧 
重 语法 ， 很 少 有 项 目 实战 ， 深 度 学 习 方 面 的 教材 侧重 理论 ， 特 别 是 针 
对 卷 积 神经 网 络 ， 很 少 涉及 源码 解读 和 实现 。 因 此 我 试图 通过 本 书 ， 
使 读者 掌握 Python 语言 并 深入 理解 卷 积 神经 网 络 ， 并 能 用 Python 语 
言 实现 卷 积 神经 网 络 结构 。 


为 了 使 尽 可 能 多 的 读者 对 卷 积 神经 网 络 有 所 了 解 ， 本 书 假定 读者 
不 具备 任何 机 器 学 习 知识 。 同 时 ,我 尽量 少 地 使 用 数学 知识 ， 只 要 掌 
握 向 量 、 和 矩阵 及 矩阵 乘法 的 定义 ， 就 能 理解 本 书 中 除了 优化 之 外 的 所 
有 章节 ; 优化 问题 涉及 的 数学 知识 有 导数 、 偏 导数 、 泰 勒 展开 式 和 链 
式 法则 。 学 习 Python 语言 需要 掌握 一 些 基 本 知识 ， 如 list 结构 、for 
循环 、 函 数 、 类 和 NumPy 模块 。 因 此 ， 本 书 适 合 具 有 一 定 Python J£ 
础 的 大 学 二 年 级 以 上 的 理工 科 本 科 生 和 研究 生 ， 具 有 类 似 知识 基础 的 
工程 技术 人 员 和 科研 人 员 ， 以 及 对 卷 积 神经 网 络 有 一 定 了 解 ， 想 进 一 
步 理 解 的 人 士 阅读 。 
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全 书 共 10 章 , 分 为 3 个 部 分 : 第 一 部 分 (第 1 章 ~ 第 4 章 ) 介绍 
了 机 器 学 习 的 基本 概念 、 线 性 模型 、 神 经 网 络 和 卷 积 神经 网 络 模 型 ， 
采用 一 条 主线 贯穿 这 3 种 模型 ， 层 层 递 进 ， 降 低 了 学 习 难 度 ; 第 二 部 
分 (第 5 章 和 第 6 章 ) 介绍 了 基于 梯度 下 降 法 的 优化 方法 和 梯度 反 向 
传播 算法 ， 详 细 地 给 出 了 各 种 模块 的 反 向 传播 代码 ， 读 者 掌握 了 这 些 
方法 后 ， 如 果 遇 到 新 的 模块 ， 就 能 独立 实现 其 反 向 传播 代码 ; 第 三 音 
分 (第 7 章 ~ 第 10 章 ) 介 绍 了 训练 网 络 前 的 准备 工作 、 神 经 网 络 实战 、 
卷 积 神经 网 络 的 应 用 及 其 发 展 ， 特 别 详细 地 给 出 了 数据 归 一 化 、 梯 度 
检测 、 批 量 归 一 化 ( BN ) 及 各 种 经 典 的 卷 积 神经 网 络 结构 ,如 VGGNet、 
GoogLeNet、ResNet、SENet 和 轻 量 网 络 MobileNetV2。 除 第 1 章 外 ， 
每 个 关键 知识 点 都 给 出 了 基于 NumPy 的 代码 实现 , 特别 是 第 8 章 和 第 
9 章 这 两 章 ， 给 出 了 完整 的 神经 网 络 和 卷 积 神经 网 络 代 码 实现 ， 方 便 
读者 训练 网 络 和 查阅 代码 。 


如 果 你 只 是 想 了 解 卷 积 神经 网 络 的 原理 , 可 只 看 第 一 部 分 和 第 10 
章 。 如 果 你 只 是 想 更 好 地 利用 TensorFlow 等 框架 来 训练 网 络 结构 ， 可 
不 用 看 第 6 章 ， 通 过 学 习 第 5 章 就 能 正确 选择 合适 的 优化 算法 。 如 果 
你 想 不 借 助 TensorFlow 等 框架 实现 各 种 网 络 结构 , 则 需 学 习 所 有 章节 ， 


特别 是 第 二 部 分 。 


本 书 中 的 代码 "的 一 个 突出 优点 是 接近 伪 代 码 , 几乎 不 言 自明 , 十 
分 容易 读 懂 。 如 果 读者 没有 Python 基础 ， 不 看 代码 也 能 掌握 卷 积 神经 
网 络 的 知识 。 当 然 ， 强 烈 建议 读者 手工 输入 代码 ， 泛 读 或 精读 代码 ， 


D 本 书 代码 可 以 从 图 灵 社区 (iTuring.cn ) 本 书 主页 免费 注册 下 载 。 
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注意 其 实现 细节 。 这 能 加 深 对 卷 积 神经 网 络 的 理解 ， 同 时 也 是 一 个 极 
好 的 Python 语言 项 目 实战 训练 。 


卷 积 神经 网 络 发 展 极为 迅速 ， 各 种 新 网 络 结构 层出不穷 ， 理 论 也 
在 一 步 一 步 发 展 ， 本 书 只 是 对 卷 积 神经 网 络 最 基本 、 最 核心 的 概念 ， 
以 及 最 重要 的 网 络 结构 进行 介绍 。 我 自 认 才 下 学 浅 ， 略 知 皮 毛 ， 更 兼 
精力 有 限 , 书 中 错 雇 之 处 在 所 难免 , 若 蒙 读者 不 音 告知 , 将 不 胜 感激 。 


我 的 邮箱 是 shanjianhua.vip@qq.com， 如 有 疑问 ， 欢 迎 垂询 。 


最 后 要 感谢 我 的 家 人 ， 特 别 感谢 我 的 爱人 余 慧 莉 女 士 ， 感 谢 她 
一 直 以 来 对 我 的 理解 和 支持 。 当 然 ， 也 要 感谢 使 本 书 顺利 出 版 的 编辑 
王 军 花 和 武 商 欣 两 位 女士 。 
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我 们 以 生活 中 常见 的 挑选 西瓜 为 例 。 到 了 夏天 , 大 家 喜欢 吃 西瓜 ， 
希望 买 到 好 西瓜 。 怎 么 挑 到 好 西瓜 呢 ? 我 们 会 根据 西瓜 的 一 些 属 性 特 
点 (如 根 蒂 、 敲 声 、 触 感 和 纹理 等 ) 进行 挑选 ， 一 般 认 为 根 蒂 凹陷 、 
敲 声 浑 响 、 触 感 硬 滑 和 纹理 清晰 的 西瓜 是 好 瓜 。 这 些 挑选 西瓜 的 经 验 
是 人 类 掌握 的 知识 ， 是 在 无 数 次 挑选 西瓜 后 总 结 出 来 的 。 


有 具体 怎么 掌握 挑选 西瓜 的 知识 呢 ? 假设 开始 时 ， 我 们 对 西瓜 没有 
任何 了 解 ， 西瓜 的 好 坏 只 能 随机 猜测 。 为 了 提高 判断 的 准确 率 ， 一 般 
来 说 会 这 么 做 : 拿 到 一 个 西瓜 ， 切 开 ， 亲口 品尝 ,确定 西瓜 的 好 坏 ， 

然后 记录 这 个 西瓜 相关 的 属性 特点 。 这 时 由 于 掌握 的 知识 十 分 有 限 ， 
所 以 必须 记录 大 量 的 属性 ， 以 确保 没有 遗漏 重要 的 相关 属性 。 随 着 品 
尝 西 瓜 数 量 的 增加 ， 逐 渐 能 总 结 、 归 纳 出 一 些 挑选 西瓜 的 知识 。 总 结 
出 知识 的 可 靠 性 也 随 着 西瓜 数量 的 增加 而 提高 ， 但 是 提高 速度 会 越 来 


第 1 章 机 器 学 习 简介 | 3 


越 慢 ， 最 后 有 可 能 趋 于 饱和 ， 即 品尝 再 多 的 西瓜 ， 也 不 能 产生 新 的 属 
性 特点 。 


机 噩 学 习 的 目的 就 是 让 计算 机 像 人 类 一 样 ， 能 区 分 西瓜 的 好 坏 。 
那么 如 何 让 计算 机 学 习 这 些 知 识 ， 就 是 机 带 学 习 的 核心 内 容 。 


1.2 基本 术语 


机 噩 学 习 的 过 程 与 人 类 学 习 的 过 程 十 分 类 似 ， 必 须 有 大 量 的 西瓜 
数据 ， 这 些 数 据 构成 训练 数据 集 。 机 顺从 这 些 训练 数据 集中 学 习 ， 这 
个 过 程 类 似 人 类 的 归纳 推理 ， 从 而 获得 隐藏 在 数据 背后 的 模型 ， 然 后 
利用 这 个 模型 对 不 在 训练 集中 的 新 西瓜 进行 预测 ， 根 据 预 测 的 准确 率 
来 评判 模型 的 优 和 劣 。 一 般 来 说 ， 训 练 数据 集 越 大 ， 机 需 学 习 到 的 模型 
的 预测 性 能 就 越 好 。 


机 器 学 习 的 本 质 是 计算 机 通过 数据 来 拟 合 隐藏 在 数据 背后 的 模 
型 。 注 意 是 拟 合 模型 ， 不 是 推导 模型 。 物 理学 家 的 研究 目的 是 推导 出 
确定 模型 ， 如 建立 自由 落体 公式 ， 机 器 学 习 专 家 研究 的 目的 是 用 数据 
来 拟 合 模型 ， 如 根据 自由 落体 不 同时 刻下 落 距离 的 一 系列 数据 ， 建 立 
拟 合 模 型 来 预测 任意 时 刻 的 下 落 距离 。 所 以 如 果 一 个 问题 已 经 存在 确 
定 模型 ， 就 不 需 再 用 机 噩 学习。 


怎么 确定 机 器 真正 学 习 到 了 挑选 西瓜 的 知识 呢 ? 这 只 能 提供 一 些 


和 纹理 等 属性 来 判断 好 坏 ， 判 断 的 准确 率 越 高 ， 就 说 明 机 器 


4| 卷 积 神经 网 络 的 Python 实现 


瓜 的 知识 越 好 。 


我 们 把 每 个 西瓜 数据 称 为 一 个 样本 ， 每 个 样本 数据 包括 两 部 分 : 
一 部 分 是 西瓜 属性 数据 ， 也 称 为 特征 属性 ， 如 根 带 、 敲 声 、 和 触感 和 纹 
理 等 ; 男 一 部 分 是 西瓜 好 坏 的 标签 ， 表示 为 (x, y)， 其 中 x 是 属性 数据 
取 值 ， 如 根 带 = HH. oU = 清脆 、 触 感 = Wu. SO = 模糊 等 ， 
y 是 标签 ， 表 示 西 瓜 的 好 坏 。 标 签 取 值 为 离散 值 ， 是 分 类 问题 如果 
离散 值 只 取 两 个 , 则 是 二 分 类 问题 , 如 本 例 中 西瓜 标签 取 “ 好 ”和 “ 坏 ” 
两 个 值 ， 如 采 离 散 值 取 多 个 ， 则 是 多 分 类 问题 ， 如 0 到 9 的 数字 识别 
是 10 分 类 问题 , 而 二 分 类 问题 是 多 分 类 问题 的 基础 。 标签 取 值 为 连续 
值 ， 是 回归 问题 。 如 果 不 仅 要 判断 西瓜 好 坏 ， 还 要 进一步 判断 西瓜 好 
坏 的 程度 (0 表示 最 坏 , 1 表示 最 好 , 0.35 表示 较 坏 , 0.75 表示 较 好 等 )， 
就 是 回归 问题 。 


机 器 学 习 得 到 的 模型 ， 本 质 上 是 得 到 从 特征 属性 x 到 标签 y 的 映 
射 f y= f(x,w) ,其 中 w 是 模型 参数 。 在 神经 网 络 模 型 中 , w 是 所 有 
权重 参数 ， 有 的 映射 不 包含 参数 w， 如 最 近邻 和 朴素 贝 叶 斯 。 对 于 二 
分 类 问题 ,通常 令 y= ftL-] ;对 于 多 分 类 问题 ， 则 |y 上 > 2 ; 对 于 回 
归 问 题 , yeER， 其 中 R 是 实数 集 。 本 书 中 映射 和 模型 两 个 词 同 义 ,， 有 
时 混用 ， 请 读者 注意 。 


如 何 评价 模型 好 坏 呢 ? 可 以 让 模型 预测 新 样本 ,得 到 预测 标签 》 ， 
= f(x,w) 。 本 书 中 ， 如 果 标 签 上 有 帽子 上 标 ， 则 表示 预测 标签 ， 无 
上 标 则 表示 真实 标签 。 预 测 标签 与 真实 标签 进行 比较 ， 以 评判 预测 效 
果 ， 进 而 评价 模型 的 好 坏 。 注 意 评价 模型 好 坏 时 ， 必 须 使 用 新 样本 ， 
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即 没有 在 训练 集中 出 现 过 的 样本 ， 这 样 才 能 真实 评价 模型 的 性 能 ， 模 
型 预测 新 样本 的 能 力 称 为 泛 化 性 能 。 评 价 一 个 模型 泛 化 性 能 时 采用 的 
样本 集 称 为 测试 集 。 


如 果 采 用 训练 样本 进行 预测 ， 则 机 器 学 习 算法 可 以 采用 偷懒 的 办 
法 来 达到 极 高 的 准确 率 ， 甚 至 100%。 因 为 算法 只 要 死记 硬 背 所 有 的 
训练 样本 ， 预 测 时 使 用 查询 方法 ， 准 确 率 即 可 达到 100%， 但 实际 上 
算法 没有 进行 任何 有 意义 的 学 习 。 这 和 学 生 学 习 类 似 ， 老 师 为 了 评估 
学 生 的 学 习 效果 ， 需 要 组 织 考试 ， 如 果 把 答案 提前 告诉 学 生 ， 则 学 生 
只 需 死 记 硬 背 ， 就 能 考 100 分 ， 但 这 完全 不 能 真实 反映 学 生 的 学 习 能 
力 ， 只 有 考试 题目 学 生 从 来 没有 做 过 ， 才 能 较为 真实 地 评估 学 生 学 习 
的 效果 。 那 是 不 是 只 要 试卷 上 的 题目 是 学 生 没 有 做 过 的 ,就 是 好 试卷 ? 
显然 不 是 ， 题目 必须 是 专家 精心 设计 的 ， 能 涵盖 大 部 分 知识 点 、 难 易 
适中 。 测 试 集 和 训练 集 好 比试 卷 ， 必 须 精心 设计 ， 尽 量 覆 盖 样 本 分 布 


空间 。 


13 重要 概念 


为 了 使 读者 深入 理解 机 器 学 习 , 这 里 需要 补充 说 明 几 个 重要 概念 。 
读者 应 该 反复 研读 ， 并 结合 后 面 的 知识 与 实际 项 目 进行 理解 。 


1. 相关 属性 和 无 关 属 性 


西瓜 的 属性 有 很 多 ， 我 们 为 什么 选择 根 蒂 、 敲 声 、 和 触感 和 纹理 进 
行 判 断 ， 不 选 大 小 、 外 形 等 属性 进行 判断 呢 ? 这 是 因为 根 蒂 、 敲 声 、 
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触感 和 纹理 属性 与 西瓜 好 坏 密 切 相关 ， 是 相关 属性 ， 大 小 、 外 形 等 属 
性 与 西瓜 好 坏 无 关 ， 是 无 关 属 性 。 无 关 属 性 对 于 判断 西瓜 好 坏 不 能 提 
供 任何 有 价值 的 信息 ， 所 以 不 需要 这 些 无 关 属性 。 


那么 ， 怎 么 知道 属性 是 相关 属性 还 是 无 关 属性 呢 ? 这 是 在 无 数 次 
挑选 西瓜 时 总 结 出 来 的 知识 ， 属 于 领域 知识 。 在 一 个 具体 的 机 器 学 习 
任务 中 ， 必 须 充 分 利用 领域 知识 ， 挑 选 出 相关 属性 ， 剔 除 无 关 属 性 。 
如 果 没 有 领域 知识 ， 则 只 能 采用 大 量 属性 ， 这 会 极 大 地 增加 机 器 学 习 
的 难度 并 且 降 低 机 器 学 习 的 效果 。 


2. 有 效 学 习 


模型 对 新 样本 的 泛 化 性 能 必须 大 于 随机 猜测 , 才能 说 明 模 型 进行 
了 有 效 学 习 。 对 于 二 分 类 问题 ， 如 果 准 确 率 是 30%， 则 说 明 机 器 没有 
进行 任何 学 习 , 只 有 大 于 50%, 才能 说 明 机 融 进 行 了 学 习 。 一 般 来 说 ， 
准确 率 不 可 能 达到 100%， 只 能 接近 ， 因 为 现实 世界 中 的 样本 无 穷 无 
尽 ， 特 征 取 值 也 各 不 相同 ， 很 难 完 全 掌握 ， 总 会 存在 误 判 。 


大 家 可 能 会 设想 ， 随 着 掌握 的 领域 知识 不 断 增 长 ， 总 有 一 天 能 完 
全 准确 判断 西瓜 好 坏 ， 准 确 率 达 到 100%， 完 美 地 建立 起 西瓜 好 坏 的 
模型 。 如 果真 有 这 人 么 一 天 ， 判 断 西瓜 好 坏 就 不 应 该 是 机 器 学 习 研 究 的 
领域 ， 因 为 我 们 已 经 有 了 判断 西瓜 好 坏 的 确定 模型 ， 直 接 根 据 模型 就 
能 判断 , 没有 必要 采用 机 器 学 习 了 。 是 否 存 在 一 个 确定 模型 能 准确 判 
断 西 瓜 好 坏 ， 这 是 一 个 终极 难题 ， 既 不 能 肯定 ， 也 不 能 否定 。 
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3. 从 数据 中 学 习 


机 噩 仅 能 从 数据 中 获得 分 类 的 能 力 ， 根 据 指令 一 步 一 步 地 对 样本 
进行 分 类 ， 人 类 不 能 显 式 编程 告诉 它 。 举 个 数据 排序 的 例子 ， 人 类 开 
发 了 很 多 排序 算法 ， 如 冒 泡 、 快 排 等 ， 如 果 把 这 些 排序 算法 进行 显 式 
编程 ， 计 算 机 获得 了 排序 能 力 ， 而 且 准 确 率 100%， 但 这 不 是 机 器 学 
习 。 如 果 只 是 提供 给 计算 机 很 多 无 序 和 有 序 的 数据 对 ， 计 算 机 仅 根据 
这 些 数据 对 进行 学 习 ， 获 得 了 排序 能 力 ， 则 是 机 带 学 习 ， 但 准确 率 一 
般 达 不 到 100%。 学 习 到 的 排序 知识 存储 在 模型 参数 w 中 。 


4. 映射 


对 于 不 同 的 机 器 学 习 方 法 ,映射 /的 函数 形式 是 不 同 的 ， 如 线性 
模型 、SVM 和 神经 网 络 的 映射 了 是 不 同 的 。 在 同一 机 带 学 习 方法 中 ， 
映射 了 的 函数 形式 是 相同 的 ， 不 同 的 只 是 参数 w。 本 书后 面 会 详细 介 
绍 线性 模型 和 神经 网 络 模型 , 对 于 SVM 模型 , 读者 可 查阅 相关 的 资料 。 


5. 机 器 学 习 中 的 优化 难题 


如 何 获 得 最 优 参数 w， 使 模型 了 的 泛 化 性 能 最 好 ? 这 是 数学 中 的 
参数 优化 问题 。 读 者 如 果 对 高 中 数学 和 高 等 数学 印象 深刻 的 话 ， 应 该 
做 过 很 多 求 函数 极 值 的 题目 ， 机 带 学 习 中 的 参数 优化 问题 和 数学 求 极 
值 题目 没有 本 质 差别 ， 只 是 难度 更 大 。 根 据 连续 函数 的 极 值 定理 ， 连 
续 函 数 的 极 值 条 件 是 偏 导数 为 0。 以 上 知识 点 ,读者 如 果 不 熟 悉 ， 强 
烈 建议 读者 学 习 。 机 器 学 习 中 求 最 优 参数 完全 是 数学 中 的 参数 优化 问 
题 吗 ? 如 果 这 样 认 为 ， 就 错 了 ， 下 面 将 通过 3 点 来 解释 求 最 优 参数 不 
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仅仅 是 数学 参数 优化 问题 。 


第 一 ， 模 型 了 的 泛 化 性 能 跟 训练 数据 集 密切 相关 ， 针 对 不 同 的 训 
练 集 ， 其 泛 化 性 能 的 差别 可 能 很 大 。 因 此 ， 建 立 高 质量 的 训练 集 是 机 
器 学 习 的 重要 任务 ， 占 整个 工作 量 的 60% 以 上 。 如 何 建立 高 质量 的 训 
练 集 呢 ? 还 是 以 西瓜 任务 为 例 。 首 先 ， 训 练 集 应 该 尽 可 能 包含 各 种 各 
样 的 西瓜 ( 如 品种 、 产 地 、 栽 培土 壤 和 施肥 浇 水 等 ) 这 就 是 所 谓 的 见 
多 识 广 。 其 次 ， 应 该 尽 可 能 多 地 提取 与 任务 相关 的 属性 。 这 样 的 训练 
集 很 容易 训练 出 效果 好 的 模型 ， 即 使 使 用 的 机 融 学 习 算 法 很 普通 。 建 
立 高 质量 的 训练 集 需要 大 量 的 人 力 、 物 力 和 领域 知识 ,一 般 的 研究 者 
很 难 建立 高 质量 的 训练 集 ， 而 没有 好 的 训练 集 ， 就 难以 开发 好 的 机 器 
学 习 算法 。 为 了 使 广大 研究 者 能 专心 进行 机 器 学 习 算 法 研究 ， 机 央 学 
习 界 有 许多 著名 的 公开 数据 集 。 读 者 学 习 机 咒 学 习 算 法 时 ， 最 好 使 用 
这 些 数据 集 。 最 后 强调 ， 不 同 的 学 习 算 法 必须 在 同一 个 测试 集 进行 比 
较 , 才能 区 分 优 劣 。 


第 二 ， 模 型 f 的 函数 形式 虽然 是 统一 规范 的 ， 但 不 同 的 机 器 学 习 
方法 采用 不 同 的 函数 形式 ， 如 神经 网 络 和 支持 向 量 机 就 不 同 ， 这 导致 
学 习 效 果 也 不 同 。 如 何 选择 好 的 函数 形式 ， 一 直 是 机 器 学 习 领 域 最 核 
心 和 最 富 创 新 性 的 课题 。 本 书 讲 的 卷 积 神经 网 络 之 所 以 在 图 像 分 类 中 
获得 空前 胜利 ， 就 是 因为 卷 积 运算 巧妙 地 把 视觉 神经 领域 知识 融入 到 
函数 形式 中 。VGGNet、GoogLeNet 和 ResNet 等 著名 的 卷 积 网 络 模型 
就 是 映射 了 采用 的 函数 形式 稍微 不 同 ， 使 这 些 模型 的 效果 各 不 相同 。 
如 何 设计 更 好 的 ./ 将 一 直 是 机 器 学 习 研 究 的 核心 课题 。 
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第 三 ， 评 价 模型 的 泛 化 性 能 时 ， 必 须 使 用 测试 集 ， 但 是 训练 过 程 
中 使 用 的 是 训练 集 , 测试 集 是 “不 存在 ”的 ,这样 可 能 存在 一 种 情况 : 
模型 对 训练 集 有 很 好 的 拟 合 效 果 ， 但 对 测试 集 拟 合 效果 一 般 。 这 是 机 
器 学 习 特 有 的 现象 ， 称 为 过 拟 合 。 过 拟 合 现象 十 分 普遍 ， 理 论 上 讲 ， 
任何 机 器 学 习 算 法 都 有 过 拟 合 风险 ， 只 是 强 弱 问题 。 过 拟 合 表现 为 只 
要 精心 调整 参数 或 一 直 训练 下 去 ， 模 型 在 训练 集 上 的 性 能 就 会 越 来 
越 好 ,但 测试 集 上 的 性 能 则 不 会 ， 它 存在 拐点 ， 拐 点 之 后 性 能 会 逐渐 
变 差 。 过 拟 合 的 通常 解释 是 ， 因 为 模型 的 学 习 容 量 随 着 参数 的 精心 调 
整 和 训练 时 间 的 增加 而 越 来 越 大 ， 训 练 集 的 规模 却 是 固定 的 ， 导 致 模 
型 把 训练 集 学 习 得 过 分 好 ， 其 中 的 一 些 噪声 也 学 为 样本 的 固有 模式 ， 
因此 泛 化 到 新 样本 时 就 容易 出 错 。 过 拟 合 是 机 器 学 习 中 一 个 难以 克服 
的 问题 ， 因 为 其 产生 的 本 质 原因 在 理论 上 还 没有 解释 清楚 ， 一 般 采 用 
正则 化 来 缓解 过 拟 合 。 


上 面 这 3 点 也 是 机 融 学 习 人 研究 的 核心 内 容 ， 本 书 主要 讲解 基于 梯 
度 下 降 法 的 参数 优化 方法 和 神经 网 络 模型 ,缓解 过 拟 合 也 是 重点 之 一 。 
对 于 如 何 建立 高 质量 的 训练 集 ， 这 和 和 领域 知识 密切 相关 ， 本 书 暂 不 涉 
及 ， 本 书 将 采用 公开 数据 集 。 


6. 过 拟 合 实例 


为 了 使 读者 对 过 拟 合 有 感性 认识 ， 这 里 有 一 个 十 分 经 典 的 例子 : 
多 项 式 数据 拟 合 。 假 设 数据 点 (x, y) 的 真实 模型 是 二 次 曲线 ， 由 于 只 
声 ， 每 个 采样 点 都 会 偏离 理想 值 。 为 了 减 小 训练 误差 ， 极 端 情况 下 ， 
为 使 训练 误差 为 0， 即 拟 合 曲线 严格 通过 每 个 数据 点 ， 从 理论 上 可 证 : 
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对 于 有 N 点 的 数据 ， 则 拟 合 曲线 必须 是 N - 1 次 曲线 ， 如 一 次 函数 通 
过 两 点 ， 二 次 函数 通过 三 点 等 。 一 般 情况 下 ， pe 

N 至 少 取 10 以 上 。 函数 拟 合 容易 出 现 数值 计算 不 稳定 、 曲 线 振荡 
等 情况 ， 对 于 真实 模型 是 二 次 曲线 的 数据 拟 合 任务 ， 高 次 函数 的 泛 化 
性 能 会 远 低 于 低 次 函数 。 这 里 所 说 的 学 习 容量 , 就 是 拟 合 曲线 的 次 数 ， 
其 值 越 高 ， 容 量 越 大 ， 越 能 拟 合 变 化 剧烈 的 数据 。 学 习 “ 过 好 ”就 是 
E 产生 过 拟 合 
怎么 缓解 过 拟 合 呢 ? 读者 可 能 会 说 ， 用 真实 模型 的 二 次 曲线 拟 合 。 但 
在 实际 情况 中 很 难 通 过 数据 变化 趋势 准确 判断 曲线 次 数 ， 所 以 只 能 

概 估计 ， 采 用 3 次 或 4 次 曲线 进行 拟 合 。 为 了 缓解 曲线 振荡 ， 对 方程 
系数 ( 即 参数 w) 进行 约束 ， 使 系数 的 绝对 值 尽 可 能 小 ， 这 就 是 正则 
化 。 但 曲线 次 数 又 不 能 取得 太 低 ， 这 会 使 学 习 容 量 过 低 ， 难 以 拟 合 数 
据 变化 趋势 。 所 以 实际 做 法 是 : 采用 学 习 容 量 较 大 的 模型 ， 使 学 习 过 
程 相对 容易 ， 利 用 正则 化 缓解 学 习 容 量 较 大 所 引起 的 过 拟 合 


LE 


与 过 拟 合 相对 的 是 欠 拟 合 ， 欠 拟 合 指 模型 的 学 习 容 量 过 低 ， 不 能 
学 习 到 训练 样本 的 一 般 性 质 。 欠 拟 合 很 容易 克服 ， 只 需 增 大 模型 容量 
即 可 。 


7. 训练 集 、 验 证 集 和 测试 集 


如 何 正确 评估 模型 的 泛 化 性 能 ”由 于 过 拟 合 ， 要 正确 评估 模型 的 
泛 化 性 能 并 不 是 一 件 简单 的 事情 ， 往 往 会 过 于 乐观 ， 高 估 了 模型 的 
泛 化 性 能 。 以 多 项 式 数据 拟 合 为 例 ， 对 于 固定 次 数 的 曲线 ， 利 用 训 
练 集 能 学 习 到 最 优 系数 w。 采 用 不 同 次 数 的 曲线 拟 合 时 , 其 拟 合 效 果 


第 1 章 机 器 学 习 简介 | 11 


一 般 是 不 同 的 ， 怎 么 确定 曲线 最 优 次 数 呢 ? 只 能 用 “测试 集 ” 测 试 
不 同 次 数 曲线 的 拟 合 效果 ,我们 一般 把 这 个 “测试 集 ” 叫 作 验 证 集 ， 
用 于 选取 拟 合 效 果 最 优 的 曲线 作为 最 终 模 型 。 如 果 认 为 模型 的 泛 化 
性 能 就 是 验证 集 的 最 优 拟 合 效 果 ， 就 高 佑 了 模型 的 泛 化 性 能 。 因 为 
存在 过 拟 合 ， 所 以 验证 集 最 优 的 模型 不 一 定 在 其 他 测试 集会 最 优 ， 还 
需要 另 一 个 测试 集 评估 该 最 优 模型 的 泛 化 性 能 。 因 此 ， 完 整 的 机 顺 学 
习 需 要 3 个 数据 集 : 训练 集 、 验 证 集 和 测试 集 。 训 练 集 寻找 最 优 参数 
W， 验 证 集 决定 最 优 曲 线 方程 次 数 ， 测 试 集 评估 模型 的 泛 化 性 能 。 


8. 超 参数 和 参数 


机 器 学 习 一 般 包 含 两 类 参数 : 超 参 数 和 参数 。 超 参数 的 数目 通常 
不 多 , 在 10 以内; 参数 的 数目 可 能 很 多 ,如 卷 积 神经 网 络 中 有 近 千 万 
个 参数 (权重 )。 曲 线 拟 合 中 , 方程 的 次 数 就 是 超 参数 ,多 项 式 的 系数 
就 是 参数 。 这 两 种 参数 的 调 参 方式 不 同 ， 超 参数 取 值 一 般 是 人 工 设 定 
的 ， 参 数值 是 根据 参数 优化 算法 自动 寻 优 的 。 超 参数 的 取 值 对 模型 泛 
化 性 能 有 重大 的 影响 , 验证 集 就 是 用 来 决定 最 优 超 参数 取 值 的 。 目 前 ， 
出 现 了 很 多 超 参 数 自动 优化 算法 。 


9. 如 何 提高 模型 泛 化 性 能 


当 模 型 的 泛 化 性 能 不 能 满足 要 求 时 ， 可 以 从 两 个 方面 提高 模型 的 
泛 化 性 能 。 其 一 是 提高 模型 的 学 习 容 量 ， 把 训练 误差 降低 到 满意 的 程 
度 ， 同 时 增 大 正则 化 强度 ， 降 低 过 拟 合 风险 。 其 二 是 构造 更 好 的 数据 
集 , 这 包括 增 大 样本 数量 , 调整 样本 以 更 加 全 面 地 覆盖 样本 分 布 空间 ， 
利用 领域 知识 提取 更 好 的 特征 。 
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10. 模型 输出 


模型 的 输出 ， 如 果 是 回归 问题 ， 则 直接 输出 实数 。 在 多 分 类 任务 
中 ， 输 出 一 般 是 向 量 ， 向 量 的 维 数 等 于 类 别 数 ， 元 素 值 是 实数 。 元 素 
值 表示 对 应 类 别 的 得 分 ， 得 分 越 大 表示 该 样本 与 对 应 的 类 别 越 相 似 ， 
故 最 大 元 素 值 对 应 的 类 别 就 是 最 终 预测 的 类 别 。 二 分 类 是 多 分 类 的 特 
例 ， 只 需 输出 一 个 实数 值 ， 并 与 0 比较 ， 大 于 0 预测 为 正 类 ,小 于 0 
预测 为 负 类 。 


1.4 图 像 分 类 


人 类 每 时 每 刻 都 在 进行 图 像 分 类 , 对 人 类 来 说 , 图 像 分 类 “简单 ” 
到 甚至 察 


每 
觉 不 到 。 走 在 街道 上 , 你 要 判断 路 上 的 车 辆 、 行人 、 红 绿灯 、 
行 


道路 和 人 行 横道 等 。 


图 像 分 类 是 指 : 对 于 一 幅 给 定 的 图 像 ， 模 型 需要 判定 它 属 于 所 
给 定 的 类 别 中 的 哪 一 个 ， 如 一 幅 图 像 属 于 集合 {卡车 ， 公 交 车 ， 私 家 
E, 货车 } 中 4 类 的 概率 分 别 是 多 少 。 这 个 任务 对 人 类 看 似 很 简单 ， 却 
一 直 是 计算 机 视觉 的 一 个 核心 和 难点 问题 。 图 像 分 类 应 用 很 广泛 ， 
计算 机 视觉 的 很 多 问题 ( 如 物体 检测 、 图 像 分 割 ) 的 基础 都 是 图 像 


分 类 。 


1. 计算 机 “看 到 ”的 图 像 是 什么 


计算 机 “看 ”不 到 图 像 的 内 容 ， 对 它 而 言 ， 图 像 是 巨大 的 数值 矩 
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阵 ， 和 矩阵 元 素 表示 像素 的 颜色 信息 。 例 如 ， 某 幅 图 像 分 辨 率 为 1280 x 


720， 表 示 图 像 有 1280 x 720 个 像素 点 ， 则 存储 为 1280 x 720 的 矩阵 。 
对 于 彩色 图 像 ， 每 个 像素 点 有 红 、 绿 、 蓝 (RGB ) 3 个 颜色 的 通道 值 ， 
每 个 值 在 0( 黑 ) 到 255 (A) 之 间 ; 对 于 灰 度 图 像 ， 每 个 像素 点 有 亮 
度 1 个 通道 值 ， 每 个 值 也 在 0 到 255 之 间 。 计 算 机 只 能 根据 “看 到 ” 


的 这 


个 数值 矩阵 去 判定 图 像 内 容 ， 采 用 Hx Wx C 表示 图 像 ， 其 中 H 


是 图 像 高 度 ， 球 是 宽度 ，C 是 通道 数 。 


2. 图 像 分 类 的 挑战 


图 像 分 类 对 人 类 很 简单 ， 但 对 计算 机 而 言 ， 会 面临 诸多 困难 ， 主 


要 有 如 下 几 点 。 


Q 视角 变化 : 摄像 机 可 以 从 多 个 角度 拍摄 同一 个 物体 ， 不 同 角度 
的 图 像 内 容 不 同 。 

O 大 小 变化 : 同一 类 物体 有 大 有 小 ， 而 且 拍摄 距离 对 大 小 的 影响 
很 大 。 

口 形变 : 很 多 物体 不 是 刚体 ， 会 产生 形变 。 

口 遮挡 : 目标 物体 可 能 会 被 挡住 ， 有 时 候 物 体 只 有 一 小 部 分 是 可 
见 的 。 

O 光照 条 件 : 强 光 和 暗 光 环境 下 拍摄 ， 像 素 的 亮度 差别 非常 大 。 
口 背景 干扰 : 物体 可 能 混和 人 复杂 背景 中 ， 难 以 辨认 。 

口 类 内 差异 : 同类 物体 之 间 的 外 形 差异 很 大 ， 比 如 椅子 。 这 类 物 
体 有 许多 不 同 的 子 类 ， 每 个 子 类 都 有 自己 独特 的 外 形 。 
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好 的 图 像 分 类 模型 必须 能 克服 上 述 变 化 及 其 组 合 ， 同 时 对 类 间 差 
异 足 够 敏感 。 


3. 语义 鸿沟 


我 们 知道 ， 计 算 机 只 能 “看 到 ”一 个 个 像素 值 堆积 成 的 矩阵 ， 并 
非 人 类 看 到 的 物体 内 容 。 人 类 在 判别 图 像 内 容 时 ， 不 是 建立 在 图 像 像 
素 值 这 种 低层 视觉 特征 上 ， 而 是 建立 在 对 图 像 语 义理 解 的 基础 上 ， 如 
人 脸 由 眼睛 和 嘴巴 等 组 成 。 这 种 语义 理解 无 法 从 图 像 的 低层 视觉 特征 
中 直接 获得 , 而 是 由 人 们 长 期 积累 的 大 量 先 验 知识 帮助 判断 。 换言之 ， 
人 们 是 依据 图 像 的 语义 信息 来 进行 图 像 判 别 的 ， 这 产生 了 人 所 理解 的 
“语义 相似 ”与 计算 机 理解 的 “视觉 相似 ”之 间 的 “语义 鸿沟 ”。 语 义 
鸿沟 就 是 由 于 计算 机 获取 的 图 像 信 息 与 人 类 对 图 像 理解 的 语义 信息 的 
不 一 致 性 而 导致 的 低层 信息 和 高 层 信息 之 间 的 距离 。 像 素 信息 不 包含 
任何 语义 信息 ， 计 算 机 难以 从 像素 中 提取 语义 信息 ， 这 是 图 像 分 类 难 
度 大 的 内 在 原因 。 


4. 数据 驱动 方法 


那么 ， 如 何 写 一 个 图 像 分 类 的 算法 呢 ? 这 和 排序 算法 大 不 一 样 ， 
怎么 写 一 个 从 图 像 中 认 出 车 的 算法 ? 因此， 与 其 在 代码 中 直接 写 明 各 
类 物体 到 底 “ 看 起 来 ”是 什么 样 ， 不 如 采取 小 孩 看 图 识 物 的 方法 : 给 
计算 机 很 多 物体 图 像 ， 然 后 采用 机 器 学 习 方 法 ， 证 计算 机 自己 学 习 区 
分 每 个 类 别 物体 图 像 的 视觉 表现 特征 。 这 种 方法 , 就 是 数据 驱动 方法 ， 
也 就 是 机 器 学 习 方 法 。 不 要 直接 告诉 计算 机 该 “怎么 做 ”， 而 是 给 计算 
机 大 量 的 实例 ， 让 计算 机 自己 学 会 “怎么 做 ”。 
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给 计算 机 看 的 大 量 实例 构成 数据 集 。MNIST 数据 集 是 手写 数字 
集 ， 在 图 像 分 类 中 十 分 著名 。 深 度 学 习 三 巨头 之 一 Geoffrey Hinton 称 
其 为 机 器 学 习 界 的 小 白鼠 ， 表 明 其 基础 和 简单 的 特点 。 三 巨头 中 的 
Yann LeCun， 也 是 卷 积 神经 网 络 之 父 ， 他 在 该 数据 集 上 首次 实现 了 卷 
积 神经 网 络 ， 但 由 于 该 数据 集 很 简单 ， 不 能 充分 发 挥 卷 积 神经 网 络 的 
优势 ， 被 当时 的 支持 向 量 机 (SVM ) 盖 过 了 风头 。 直 到 ImageNet Zi 
据 库 出 现 ,， 才 使 卷 积 神经 网 络 再 度 火 起 来 。 由 此 可 见 ，MNIST 作为 入 
门 数据 集 ， 是 非常 合适 的 。 


MNIST 来 自 美国 国家 标准 与 技术 研究 院 , 训练 集 由 250 个 不 同 的 
人 手写 的 数字 构成 , 其 中 50% 是 高 中 学 生 ,50% 来 自 人 口 普查 局 的 工 
作 人 员 ; 测试 集 也 是 同样 比例 的 手写 数字 。MNIST 数据 集 可 在 
http://yann.lecun.com/exdb/mnist/ 上 进行 下 载 , 训练 集 包 含 60 000 个 样本 ， 
测试 集 包含 10000 个 样本 ,MNIST 数 据 集中 的 每 张 图 像 都 是 灰 度 图 像 ， 
由 28 x 28 个 像素 点 构成 ， 每 个 像素 点 用 一 个 灰 度 值 表 示 ， 如 图 1.1 和 
图 1.2 所 示 。 每 张 图 像 的 标签 就 是 手写 数字 的 类 别 标签 ( 整数 0~9 )。 


ð a34 
56/77/44 


图 1.1 MNIST 数 据 集 0 ~ 9 数字 样本 
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Z 7 十 | 了 71 
ZI2171217 
74171721217 
2191271717 
3411721017127 
12. MNIST 数据 集 数字 7 样本 


其 他 知名 数据 库 有 CIFAR-10, CIFAR-100 和 ImageNet 等 ， 特 别 
是 ImageNet， 推 动 了 深度 学 习 的 发 展 。 


2.4 线性 模型 


第 1 章 介 绍 了 机 顺 学 习 模型 ， 它 的 本 质 上 是 得 到 由 属性 x 到 标签 


y 的 映射 六 y-fQGuw) (其 中 w 是 模型 参数 
最 优 值 。 多 分 类 任务 中 ， 输 出 y 一 般 是 向 量 ， 


)， 通 过 最 优化 理论 获得 
称 为 输出 向 量 。 输 出 向 


量 的 维 数 等 于 类 别 数 ， 其 元 素 值 是 实数 ， 表 示 对 应 类 别 的 分 值 ， 分 值 


越 大 ， 该 样本 与 对 应 的 类 别 就 越 相 似 ， 故 最 大 元 素 值 对 应 的 类 别 就 是 


最 终 预 测 的 类 别 。 当 映射 y= foc w) 采用 最 简单 的 线性 函数 时 ， 就 得 
到 线性 分 类 器 。 线 性 函数 虽然 简单 ， 却 是 理解 神经 网 络 和 卷 积 神经 网 


络 的 基础 ， 乔 望 读者 重视 。 


假设 训练 集 wER?， 每 个 样本 对 应 的 类 别 标签 为 y,i= 1.2，……,N， 


yiE1,…,; 久 ， 这 表示 训练 集 有 N 个 样本 ,每 个 相 


个 属性 )， 共 有 天 个 类 别 。 


# 本 的 维度 是 D( 即 有 DD 


例如 ,在 MNIST 中 ， 有 N=60000 个 训练 样本 ,每 个 图 像 有 DD= 
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28 x28 x1=784 个 维度 , K 
像素 是 一 个 特征 属 了 
伸 为 一 个 向 量 ， 卷 积 网 络 不 


三 
pany 


2.1.1. 线性 分 类 器 


-10, 这 是 因为 有 10 个 数字 。 图 像 的 每 个 


生 。 线 性 模型 和 神经 网 络 模型 中 ， 图 像 矩 阵 需要 拉 


属性 x; 和 参数 w 的 线性 函数 为 : 


s= f(x,w,b)= x w, +X W, ++ Xpw, +b (2.1) 


其 中 输出 s 是 分 值 ，D 个 wi; 组 成 参数 w， 也 称 权重 向 量 ,，5b 是 偏 置 参 
数 。 由 于 s 是 标量 ， 只 能 表示 某 个 类 别 的 分 值 ， 不 能 表示 所 有 类 别 的 


分 值 。 为 了 得 到 天 个 分 值 ， 


则 需 天 个 线性 函数 : 


S, = Xa Wi HX Wa t+ Xipwip tb, 


S3 = Xa Wa + Xa Wn t XiW;p +b, 


Sk 二 Xil Wk 


(2.2) 


LHX Wg tb XWe t b, 


第 i 个 方程 表示 第 i 类 的 分 值 函数 ， 也 称 为 第 i 个 分 类 器 。 为 了 简 


化 书写 , 可 以 写成 矩阵 形式 


。( 刚 开始 可 能 不 习惯 矩阵 形式 , 但 一 定 要 


逐渐 习惯 。) 分 两 步 改 写 比 较 容易 理解 ， 第 一 步 : 


注意 此 时 各 个 凡是 列 向 量 ， 


s, =Xw +b, 
S, = X,w, t b, 23) 


Sx = X;Wg t b, 


Xi 是 行 向 量 ，xmw; 是 向 量 内 积 。 第 二 步 : 
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s=xW +b (2.4) 


注意 此 时 s 是 分 值 行 向 量 , b EWEA, WERNEER, 7H 
wi 个 列 向 量 构成 。 


在 MNIST 中， 各 向 量 或 矩阵 的 维度 为 : s 是 [1 x K] ^ [1x 10], b 
是 [1 x K] 2 [1 x 10], x 是 [1 xD]=[1x784], WW 是 [DxK=[784 x 10]. 


如 果 把 上 面 矩 阵 形式 的 线性 模型 中 的 每 个 向 量 或 矩阵 当 作 标 量 ， 
则 线性 模型 就 变 成 一 元 一 次 方程 ， 变 成 最 简单 的 线性 模型 了 。 


对 于 线性 模型 ， 需 要 强调 如 下 几 点 。 


第 一 ， 进 行 多 分 类 ， 只 需 一 个 矩阵 乘法 xW IERIE, BEY 
类 需 就 是 矿 的 一 个 列 向 量 。 


第 二 ， 训 练 集 (x;, yj) 是 给 定 且 不 可 改变 的 ， 可 变 的 是 权重 W RM 
置 向 量 bo 机 器 学 习 的 目的 就 是 通过 优化 算法 得 到 这 些 参 数 的 最 优 值 ， 
使 得 模型 计算 出 来 的 分 值 向 量 和 训练 集中 样本 的 真实 类 别 标签 相符 。 
何谓 相符 ， 详 见 2.2 节 。 


第 三 ， 模 型 训练 的 结果 是 得 到 最 优 参数 万 和 4b。 一 旦 训练 完成 ， 
就 不 再 需要 训练 集 。 因 为 预测 样本 类 别 时 ， 只 需 计 算 分 值 向 量 ， 不 需 
要 训练 集 。 


2.1.2 理解 线性 分 类 器 


线性 分 类 器 计算 图 像 的 所 有 像素 值 与 权重 的 内 积 ， 从 而 得 到 该 分 
类 器 的 类 别 分 值 。 根 据 权 重 符号 ， 分 类 器 对 图 像 中 的 像素 表现 出 喜爱 
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(符号 为 正 ) 或 者 厌恶 (符号 为 负 )。 权 重 符号 为 正 ， 乘 以 像素 值 CON 
IE ), 能 提高 分 值 ; 权重 符号 为 负 时 , 则 减 小 分 值 。 如 果 图 像 属 于 某 类 ， 
则 分 值 要 大 ; 不 属于 某 类 ， 则 分 值 要 小 。 所 以 ， 可 以 想象 “飞机 ” 
像 被 大 量 的 蓝 色 ( 对应“ 天空”) 所 包围 ,那么 “飞机 ”分 类 需 在 蓝 色 
通道 上 有 很 多 的 正 权重 ( 提高 “飞机 ”的 分 值 )， 而 在 绿色 和 红色 通道 
上 的 权重 为 负 的 就 比较 多 〈 降低 “ 非 飞机 ”的 分 值 )。 


将 图 像 看 作 高 维 空间 的 矢量 : 我 们 把 图 像 拉 伸 成 为 高 维 空间 的 一 
个 列 向 量 ， 就 可 以 将 其 看 作 这 个 空间 中 的 一 个 矢量 ( 矢量 的 起 始点 是 
坐标 轴 原 点 ，MNIST 中 的 每 张 图 像 是 784 维 空间 中 的 一 个 矢量 )。 整 
个 数据 集 就 是 矢量 集 ， 每 个 矢量 都 带 有 一 个 类 别 标签 。 每 个 样本 的 分 
值 是 矢量 x; 和 权重 列 向 量 wj 的 内 积 ，w; 可 以 看 作 高 维 空间 中 的 矢量 ， 
内 积 可 以 看 作 矢量 x 向 矢量 w REKE. 如 果 把 内 积 看 作物 理 中 两 
个 矢量 的 点 积 ， 高 维 空间 压缩 为 二 维 空间 ， 则 能 可 视 化 分 类 器 。 举 个 
例子 ， 把 wi; 看 作 二 维 平面 的 力 ，x; 看 作 速度 ， 则 内 积 xj™w; 就 是 功率 。 
分 类 器 就 是 寻找 最 优 力 矢量 ,使 速度 x 与 对 应 类 别 的 力 wi 的 功率 最 大 。 


线性 分 类 器 看 作 模 板 匹 配 : 丸 对 应 一 个 类 别 模板 ， 分 类 就 是 找到 
x, 和 哪个 模板 最 相似 。 从 这 个 角度 来 看 ， 线 性 分 类 融 就 是 利用 学 习 得 
到 的 模板 ， 做 模板 匹配 ， 使 用 负 内 积 来 计算 图 像 与 模板 的 距离 ， 距 离 
越 小 ， 说 明 越 相似 。 


线性 分 类 器 只 能 对 线性 可 分 的 样本 进行 有 效 分 类 ,线性 可 分 指 
可 以 用 一 个 线性 函数 把 多 类 样本 分 开 ， 比 如 二 维 空间 中 的 直线 、 三 维 
空间 中 的 平面 以 及 高 维 空间 中 的 超 平面 就 是 线性 函数 。 线 性 不 可 分 
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指 有 部 分 样本 用 线性 分 类 需 划 分 时 会 产生 分 类 错误 。 对 于 线性 不 可 分 
样本 集 ， 可 以 采用 神经 网 络 来 分 类 ， 神 经 网 络 就 是 线性 分 类 融 的 升级 
版 本 。 


2.1.3 ”代码 实现 


NumPy 是 Python 开源 数值 计算 库 ， 存 储 和 处 理 大 型 矩阵 十 分 方 
便 ， 比 Python 自身 的 列表 (list) 结构 要 高 效 很 多 。 本 书 的 所 有 程序 都 
基于 NumPy 实现 。 


为 了 高 效 地 实现 线性 模型 ， 可 以 同时 计算 个 样本 的 分 值 向 量 ， 
公式 如 下 : 


s, =xW +b 
sS, = id +b (2.5) 
SN = xW +b 
合成 一 个 大 矩阵 : 
S-XW +B (2.6) 


FRERE EARME IE S 的 一 行 ， 每 个 样本 属性 向 量 
组 成 样本 属性 矩阵 处 的 一 行 。 矩阵 六 也 称 为 数据 矩阵 , 偏 置 矩阵 B 的 
每 行 都 是 偏 置 向 量 bp。 代 码 如 下 : 


(D import numpy as np 


784 4 数据 维度 
10 s9 类 别 数 


D 
K 


I I 
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N = 128 $ 样本 数量 


= np.random.randn(N, D) # 数据 矩阵 ， 每 行 一 个 样本 
W= 0.01 * np.random.randn(D,K) 

b = np.zeros((1,K)) 
@ scores = np.dot(X, W) + b # 广播 机 制 


为 了 方便 读者 运行 程序 ， 代 码 会 生成 随机 数 来 作为 样本 数据 。 
语句 由 引入 numpy 模块 , 以 后 每 个 程序 引入 NumPy 都 需要 采用 这 种 
写法 。 


细心 的 读者 可 能 发 现 ， 语 句 @ 中 偏 置 bp 是 行 向 量 ， 不 是 矩阵 ， 严 
格 按照 矩阵 运算 法 则 ， 语 句 @ 是 错误 的 ， 因 为 其 维度 不 相同 。 但 由 于 
偏 置 和 矩阵 B 每 行 都 是 偏 置 向 量 b. WRIN B， 就 会 很 麻烦 ， 需 要 
JE b 3 RRE, 但 实质 内 容 只 有 5b。 因此 ， 聪 明 的 NumPy 能 预测 到 
程序 的 意图 , 自动 完成 矩阵 扩展 工作 , 这 里 运用 到 的 内 部 机 制 是 广播 。 
NumPy 广播 机 制 对 于 编写 高 效 简洁 的 程序 十 分 重要 ， 和 希望 读者 重视 。 
NumPy 的 通用 函数 中 要 求 输入 的 数组 形状 (shape ) 是 一 致 的 。 当 数组 
的 shape 不 相等 时 ， 则 会 使 用 广播 机 制 , 扩展 数组 使 得 shape 一致， 满 
足 广 播 规则 。 


2.2 softmax 损失 函数 


我 们 了 解 到 通过 线性 模型 可 以 得 到 图 像 属于 不 同类 别 的 分 值 向 
TE, 调整 权重 矩阵 能 改变 分 值 向 量 取 值 ， 分 值 向 量 应 该 与 训练 数据 
集中 图 像 的 标签 一 致 ， 即 真实 类 别 的 分 值 应 当 取 最 高 分 值 ， 且 越 高 
越 好 。 
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损失 函数 (loss function， 也 叫 代价 函数 ，cost function ) 用 来 评价 
分 值 向 量 的 好 坏 。 分 值 向 量 与 真实 标签 之 间 的 差异 越 大 ， 损 失 函 数值 
就 越 大 ， 反 之 则 越 小 。 


2.2.1 损失 函数 的 定义 


真实 类 别 所 对 应 的 分 值 应 当 取 最 高 分 值 ， 分 值 的 绝对 大 小 不 能 用 
来 直接 做 出 判断 , 只 有 相对 大 小 或 所 占 比 例 才 能 体现 哪个 更 高 。softmax 
损失 函数 采用 所 占 比 例 判 断 ， 而 SVM 损失 函数 采用 相对 大 小 来 判断 。 
本 书 主要 讲 softmax， 想 了 解 SVM 的 读者 可 参考 其 他 资料 。 设 分 值 向 
Æ s= (ss …,s0， 因 为 分 值 可 正 可 负 ， 如 果 直接 采用 所 占 比 例 ， 对 
于 负 的 分 值 ， 不 能 反映 其 相对 大 小 。 因 此 ， 运 用 数学 技巧 ， 把 分 值 映 
射 为 正 值 ， 且 单调 递增 。 指 数 函 数 刚好 满足 此 性 质 : exps =e*。 定 义 


K 
归 一 化 向 量 norms =(e*,e*,…,e*)/》e” ， 这 样 每 个 元 素 取 开 区 间 
i=l 


(0, 1) 的 值 ， 且 所 有 元 素 之 和 为 1。 真 实 类 别 的 分 值 应 当 取 最 高 分 值 ， 
且 越 高 越 好 ， 这 意味 着 希望 真实 类 别 的 归 一 化 向 量 的 元 素 ns, 的 取 值 
接近 1。 如 果 取 值 小 于 1， 需 对 其 进行 惩罚 。 一 个 直观 的 损失 函数 为 
1-ns,， 当 取 ns, 为 1 时 ,损失 为 0; 当 ns, 取 0 时 ,损失 为 1， 即 最 大 
损失 ， 满 足 要 求 。 但 该 损失 函数 的 惩罚 力度 太 小 ， 不 利于 后 面 的 参数 
优化 。 我 们 希望 当 ns, 取 0 时 ， 损 失 值 很 大 ， 趋 近 无 穷 大 ; 当 ng, 取 1 
时 ， 损 失 值 为 0。 不 难 想到 ， 负 对 数 函 数 刚好 满足 这 个 条 件 ， 故 损失 
函数 采用 -log(ns,)， 我 们 需要 最 小 化 损失 函数 。 把 上 述 公 式 综合 在 一 
起 ， 得 到 softmax 损失 函数 的 定义 : 
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K 
L, - -log(e" / Ve") (2.7) 
j=l 


其 中 yi 是 样本 i 的 标签 ， 即 样本 真实 类 别 在 类 另 


二 一 


集合 中 的 序号 。 


这 里 举 一 个 具体 的 例子 帮助 大 家 加 深 理 解 。 假 设 有 3 类 向 量 ， 线 
性 模型 计算 得 到 的 分 值 向 量 为 s=(0.35, -0.85, 1.25)， 指 数 分 值 向 量 为 
exps = (1.42, 0.43, 3.49)， 归 一 化 向 量 为 norms = (0.26, 0.08, 0.66)。 如 果 
真实 类 别 是 第 三 类 ， 即 yi=3, 则 损失 函数 值 为 -log(0.66) = 0.42。 再 举 
一 例 ， 假 设 分 值 向 量 是 上 面 例子 的 5 倍 即 s = 5 x (0.35, -0.85, 1.25), 
此 时 归 一 化 向 量 为 norms = (1.1e-02, 2.7e-05, 0.99), 损失 函 数值 为 
-log(0.99) = 0.01， 损 失 值 很 小 。 注 意 此 时 损失 分 布 很 集中 ， 即 最 大 值 
0.99 接近 1。 


上 面 计 算 了 一 个 样本 的 损失 值 ， 如 果 计 算 多 个 样本 的 损失 值 ， 则 
最 终 损失 值 取 平均 值 。 


2.2.2 ”概率 解释 


归 一 化 向 量 norms 的 每 个 元 素 均 大 于 0 小 于 1, 且 和 为 1, 所 以 可 
以 将 其 看 作 归 属 各 个 类 别 的 概率 。 损 失 函 数 可 以 看 作 真实 类 别 的 负 对 
数 概率 ,希望 其 最 小 。 这 个 也 可 以 通过 极 大 似 然 来 解释 ， 负 对 数 概 率 
最 小 ， 等 价 概 率 最 大 ， 即 希望 真实 类 别 样本 出 现 的 概率 最 大 ， 最 容易 
被 采样 到 。 由 于 真实 类 别 的 概率 不 可 能 等 于 1， 所 以 总 会 存在 损失 。 
只 要 有 损失 ， 学 习 就 不 会 停止 : 真实 类 别 的 分 值 总 会 增加 ， 错 误 类 别 
的 分 值 总 会 降低 ， 损 失 值 总 是 能 够 更 小 ， 这 样 会 导致 永远 地 学 习 ， 最 
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终 引 起 过 拟 合 。 缓解 这 种 过 拟 合 的 方法 是 : 当真 实 类 别 的 概率 值 大 于 
BJE ( 如 0.99 )， 则 认为 损失 为 0， 停止 学 习 。 


2.2.3 ”代码 实现 


下 面 实现 softmax 损失 函数 的 计算 


D = 784 

K - 10 

N - 128 

# scores 是 分 值 矩 阵 ， 每 行 代表 一 个 样本 
Scores = np.random.randn(N, K) 


# 样本 标签 
y = np.random.randint(K, size = N) 
# 指数 化 分 值 矩 阵 
exp scores = np.exp(scores) 
# 样本 归 一 化 系数 
(D exp scores sum - np.sum(exp scores, axis - 1) 
# 样本 真实 类 别 的 归 一 化 分 值 
© corect_probs = exp_scores[range(N), y]/exp_scores_sum 
# 负 对 数 损失 函数 
corect_logprobs = -np.log(corect_probs) 
# 平均 损失 


data loss = np.sum(corect logprobs)/N 

采用 随机 生成 的 分 值 和 矩阵 和 标签 ,每 个 样本 的 标签 是 0 到 K-1 之 
间 的 整数 。 语 句 CD 是 行 求 和 , 因为 一 行 代表 一 个 样本 分 值 向 量 ; 语句 
D 获得 样本 对 应 类 别 的 归 一 化 分 值 , 每 行 一 个 值 , 位 置 由 标签 ?决定 。 
特别 需要 注意 的 是 矩阵 索引 方式 。 
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2.3 优化 


基于 模型 〈 如 线性 模型 ) 得 到 分 值 向 量 ， 根 据 损失 函数 评价 参数 
的 好 坏 ， 如 何 寻找 最 优 的 参数 ， 使 损失 最 小 ? 这 就 是 最 优化 。 


对 于 简单 的 优化 问题 ， 可 以 使 用 解析 法 ， 即 直接 求解 出 最 优 参数 
的 解析 解 ， 读 者 在 高 中 数学 和 高 等 数学 中 基本 都 是 采用 解析 法 ， 对 这 
种 方法 应 当 很 熟悉 。 但 对 于 复杂 的 优化 问题 ， 很 难得 到 解析 解 ， 此 时 
一 般 采 用 数值 迭代 法 ， 即 首先 随机 初始 化 解 aa， 然后 利用 迭代 公式 
x= Pa), BE A) < foc, ) 计算 数列 xí, AUR MAE x^, 
JU] x" 就 是 (局 部 ) 最 优 解 并 且 ÁO) 是 最 小 值 。 迭 代 法 需要 考虑 收敛 
速度 的 问题 ， 即 需要 多 少 次 迭代 才能 达到 指定 的 精度 要 求 ( 近似 收敛 
到 x ), 需要 的 迭代 次 数 越 少 , 算法 收敛 速度 就 越 快 , 这 是 我 们 所 希望 
的 。 理 论 上 说 ， 有 3 种 收敛 速度 一 一 次 线性 、 线 性 和 二 次 收敛 ， 这 3 
种 收敛 速度 依次 加 快 。 对 于 非 凸 优化 问题 ， 最 好 的 情况 下 也 只 能 达到 
次 线性 收敛 速度 ， 收 敛 速度 十 分 慢 。 梯 度 下 降 法 是 最 优化 的 经 典 和 迭代 
法 , 牛顿 欠 代 法 是 解 方程 的 经 典 迭 代 法 , 下 面 将 分 别 介绍 这 两 种 方法 。 


2.4 梯度 下 降 法 


梯度 下 降 法 是 最 优化 的 经 典 理论 ， 有 严格 的 数学 理论 支撑 ， 同 时 
也 是 目前 训练 神经 网 络 最 常用 和 最 有 效 的 优化 方法 ， 请 读者 给 予 足够 
的 重视 。 
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2.4.1 梯度 的 解析 意义 


读者 首先 需要 对 梯度 建立 全 面 的 理解 ， 包 括 解析 、 几 何 和 物理 。 
下 面 介绍 解析 意义 。 先 从 最 简单 的 一 元 函数 开始 ， 根 据 泰 勒 一 阶 展 
开 式 : 


SOS fes) * G Xf 0) Q.8) 


需要 注意 的 是 ， 公 式 在 xo 的 邻 域内 成 立 ， 也 就 是 x 需 离 xo 很 近 。 
最 小 化 ftx), x 必须 满足 : 
f(x) s fO) ta-n) 09) < fx0) (2.9) 
即 (x 一 x) 了 "(xo)<0， 两 个 数 乘积 为 负 ， 必 为 异 号 : (x-x)-2-nf'0). 
得 x=x -nf"(x。)， 其 中 是 正 的 比例 系数 ， 在 梯度 下 降 法 中 称 为 学 
习 率 。 改 变 变量 下 标 ， 就 得 到 和 欠 代 公式 : 


X= Xa ME os) (2.10) 


收敛 条 件 是 "(x)=0， 即 x 是 (局部) 极 值 点 ， 达 到 最 小 化 目的 。 


现在 推广 到 多 元 函数 ， 多 元 函数 的 泰勒 一 阶 展开 式 为 : 


FQ A nix) & f(Xy,35,77,35) + (x xf (X0 Xt) 
t xa (Cox X) H (2.11) 
eG" xD Glas] 


其 中 fa 008388 ) EXT ZEEE x 的 偏 导数 。 (x2 x) ETE RA. Xo, 
(x x, x) 看 作 点 x, 则 向 量 x 一 xo = (x! x) G8 xs" x) 。 
SER gs) e 1 GS) f 08 108. ， 则 展开 式 简化 为 foo = 
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fo)* 205) (x 一 %)。 因 为 内 积 g(x%0) G3) 9 809) x 一 %1cos(a) ， 
其 中 a 是 这 两 个 向 量 的 夹 角 ， 只 要 来 角 大 于 90 度 ，fx) 就 会 降低 ， 但 
要 最 小 化 fx), 癌 量 x xo 必须 与 问 量 g(x0) 方 向 相反 , 即 x 7 xo =- ng(xo)- 
改变 变量 下 标 ， 就 得 到 人 迭代 公式 : 


x, 2x,4—7g(x, 4) (2.12) 

对 比 一 元 和 多 元 迭代 公式 ， 发 现形 式 完全 一 致 。 定 义 g(x) = 
G^. Q0. f£. Q9. £7 09) 为 多 元 函数 fx) 的 梯度 , 由 于 迭代 公式 中 梯度 
前 有 负 号 ， 且 使 函数 值 下 降 ， 故 该 法 称 为 梯度 下 降 法 。 其 中 梯度 是 向 
量 ， 有 方向 和 大 小 ， 但 由 于 学 习 率 的 调整 ， 所 以 梯度 大 小 没有 意义 ， 
只 有 其 方向 才 对 最 优化 有 影响 。 


一 定 要 注意 ， 和 迭代 公式 中 ， 点 家 位 于 点 xi 的 邻 域 内 ， 泰 就 展开 
式 才能 成 立 ， 为 了 使 nga) 的 绝对 值 充分 小 ， 学 习 率 n 必须 充分 小 ， 
才能 保证 foo) 随 着 迭代 次 数 的 增 大 而 减 小 。 学 习 率 太 小 ， 会 使 收敛 
速度 过 慢 ， 即 每 次 ftxn) 下 降 的 值 很 少 ， 需 要 很 多 次 迭代 才能 获得 比较 
好 的 最 小 值 。 如 果 学 习 率 过 大 , 收敛 速度 虽然 会 加 快 , 但 有 发 散 风险 ， 
可 能 找 不 到 最 小 值 。 如 何 选择 大 小 合适 的 学 习 率 一 直 是 机 器 学 习 的 中 
心 问题 , 目前 还 没有 好 的 解决 方案 , 只 能 采用 试 错 法 。 需要 注意 的 是 ， 
当 函 数 收敛 到 f'a) = 0 的 点 xx, 由 于 泰勒 展开 式 的 局 部 性 , 这 点 不 一 
定 是 全 局 最 小 点 , 有 可 能 是 局 部 最 小 点 或 鞍点 。 具体 会 收敛 到 哪 种 点 ， 
这 和 初始 点 wo 密切 相关 。 目 前 初始 点 只 能 随机 初始 化 ， 所 以 为 了 能 得 
到 更 小 的 函数 值 ， 一 般 会 进行 多 次 优化 ， 每 次 都 会 产生 不 同 的 随机 初 
始点 ， 选 择 最 小 的 函数 值 作为 函数 最 小 值 。 


第 2 章 线性 分 类 器 | 29 


2.4.2 梯度 的 几何 意义 


函数 ftx) 在 点 x 增长 最 快 的 方向 是 梯度 方向 ， 与 函数 等 值 面 的 法 
向 量 一 致 ， 由 数值 较 低 的 等 值 面 指 向 数值 较 高 的 等 值 面 。 具 体 地 ,在 
等 高 线 地 形 图 上 , 梯度 方向 就 是 垂直 于 等 高 线 最 密 的 地 方 。 举 个 实例 ， 
假设 二 元 函数 foc, y) = (xxo) toy) c= 0， 等 值 线 是 圆周 Ce 取 不 同 
值 )， 梯 度 为 g, y) =2 x (oco). 0 一 ?0)， 梯 度 方向 为 从 圆心 Gro, yo) 指 
向 圆 上 的 点 Qo 力 ， 是 圆 在 点 (x, y) 处 的 法 线 方向 ， 与 圆周 〈 等 值 线 ) 
+H. 


2.4.3 ”梯度 的 物理 意义 


举 一 个 三 维 曲面 的 例子 ， 如 三 维 地形 ， 在 曲面 的 任 一 点 放置 一 个 
静止 的 小 球 ， 在 重力 作用 下 小 球 会 向 下 滚动 ， 那 么 初始 时 刻 会 朝 哪 个 
方向 滚动 呢 ? 答案 就 是 负 梯 度 方向 ! 小 球 会 一 直 沿 着 负 梯 度 方向 滚动 ， 
在 摩擦 力 和 重力 的 共同 作用 下 ， 最 终 停 在 一 个 凹 谷 处 ! 凹 谷 就 是 这 个 
三 维 曲面 的 〈 局 部 ) 极 小 值 ! 


传 热 问题 同样 是 这 样 ， 物 体 热 量 从 高 温 部 位 传导 到 低温 部 位 ， 最 
后 到 达 最 低温 部 位 ， 传 导 方 向 就 是 沿 着 温度 的 负 梯 度 方向 。 


2.4.4 梯度 下 降 法 代码 实现 
下 面 给 出 梯度 下 降 法 的 相关 代码 ， 以 一 元 函数 为 例 : 


alpha = 1 
epslon = 0.5 
iter num = 100 
x0 wol 
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def f(x): 
return alpha*x**2/2 


def df(x): 


return alpha*x 


def GD update (x): 


return x - epslon*df (x) 


X = x0 

for k in range(iter num): 
x - GD update(x) 
print(k, x, f(x), df(x)) 


读者 可 以 尝试 不 同 的 学 习 率 epslon， 来 感受 梯度 下 降 法 的 实际 
效果 ， 当 然 也 可 以 改变 函数 f(x) 。 


2.5 ”牛顿 法 


梯度 下 降 法 是 根据 函数 的 一 阶 泰勒 展开 式 推导 的 ， 能 不 能 用 二 阶 
泰勒 展开 式 呢 ? 答案 是 肯定 的 ， 这 就 是 牛顿 法 。 先 从 最 简单 的 一 元 函 
数 二 阶 泰勒 展开 式 开始 : 


FG) FG) + OO) + 6x PG) (2.13) 

我 们 知道 在 极 值 点 ， 函 数 导数 为 0。 那 么 对 式 (2.13) 求 导 ， 并 令 

导数 为 0， 注 意 变量 是 x， 得 f'ta- a=, Ki 
x2x-f'G)/ 了 "(xo) ， 改 变 下 标 ， 得 到 迭代 公式 : 

Xea = Xe S aN f'Q) (2.14) 
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牛顿 迭代 公式 利用 了 二 阶 导 数 ， 对 于 二 次 函数 ， 只 需 迭 代 一 步 就 
能 获得 极 小 解 x*， 具 有 二 次 收敛 速度 。 对 于 非 二 次 函数 ， 也 具有 很 快 
的 收敛 速度 ， 这 是 牛顿 法 的 主要 优点 。 此 外 ， 和 迭代 公式 中 不 存在 学 习 
率 ， 这 也 是 牛顿 法 的 优点 之 一 。 牛 顿 法 的 最 大 缺点 是 需要 计算 二 阶 导 
数 。 在 一 元 函数 时 ， 这 个 缺点 不 明显 ， 而 X 元 函数 的 “二 阶 导数 ”是 
HIRERE, EERDE Nx W， 当 N 很 大 时 ， 计 算 和 存储 海 森 矩阵 就 
是 个 大 问题 。 特 别 是 对 于 卷 积 网 络 来 说 ， 如 果 NIE 100 万 〈 属于 中 型 
网 络 )， 每 个 元 素 是 双 精 度 (8 个 字 节 )， 则 存储 海 森 矩阵 需 7450 GB, 
远 超 当 前 主流 存储 器 的 容量 。 目 前 ， 对 牛顿 法 最 先进 的 改进 算法 是 
LBFGS， 这 种 方法 对 海 森 逆 矩阵 进行 近似 计算 ， 并 采用 特征 向 量 计算 
海 森 矩 阵 而 不 是 存储 整个 矩阵 ， 这 样 不 仅 极 大 地 加 快 了 海 森 逆 矩阵 的 
计算 速度 ， 还 减 小 了 存储 量 。 目 前 ， 这 个 研究 方向 是 卷 积 网 络 优化 研 
究 的 一 个 重要 课题 。 但 应 当 指 出 ， 目 前 使 用 最 广 的 还 是 基于 梯度 下 降 
法 的 一 些 改 进 算法 ， 这 部 分 内 容 会 在 第 5 章 详 细 介绍 。 


2.6 ”机 器 学 习 模型 统一 结构 


机 器 学 习 包 括 3 个 部 分 : 参数 化 的 映射 模型 ， 将 原始 特征 属性 
映射 为 类 别 分 值 向 量 ; 损失 函数 , 根据 类 别 分 值 向 量 和 训练 集 标签 的 
相符 程度 ， 衡 量 参数 好 坏 ， 最 优化 ， 寻 找 最 优 参数 ， 使 损失 函数 值 


最 小 。 


本 书 主要 涉及 的 映射 模型 有 线性 模型 .神经 网 络 和 卷 积 神 经 网 络 ， 
解 的 损失 函数 为 softmax 损失 函数 ， 并 且 介 绍 基于 梯度 下 降 法 的 误 


— 
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差 反 向 传播 优化 方法 。 


基于 梯度 下 降 法 的 误差 反 向 传播 优化 方法 必须 有 损失 函数 ， 而 损 
失 函 数 的 定义 中 必须 有 样本 标签 ， 因 为 损失 函数 的 任务 就 是 衡量 分 值 
向 量 和 样本 标签 的 一 致 性 ， 所 以 这 种 学 习 方法 也 叫 作 有 监督 学 习 。 有 
监督 学 习 的 最 大 问题 是 必须 提供 足够 的 带 标签 的 训练 集 ， 而 建立 
的 训练 集 需 要 大 量 人 力 和 物力 。 因 此 ， 现 在 业界 开始 研究 弱 监 督 
或 无 监督 学 习 。 那 么 ， 为 什么 需要 如 此 多 带 标签 的 训练 集 呢 ? 这 是 
为 卷 积 网 络 的 权重 参数 的 数量 很 大 ， 达 百 万 或 千 万 ， 为 了 优化 这 么 多 
参数 ， 训 练 集 必须 很 大 ， 和 参数 数量 在 一 个 数量 级 上 。 


` 


3* 


Y 


这 
学 


e 


W 


梯度 下 降 法 需要 计算 损失 函数 的 梯度 ， 所 以 损失 函数 关于 参数 必 
须 是 可 导 的 ,或 只 能 在 有 限 点 不 可 导 ， 但 需要 存在 次 偏 导 。softmax 
函数 关于 分 值 向 量 是 可 导 的 ,分 值 向 量 是 映射 模型 计算 得 到 的 ， 所 以 
映射 模型 对 参数 可 导 。 线 性 模型 是 完全 可 导 的 ， 神 经 网 络 和 卷 积 神经 
网 络 几乎 处 处 可 导 , 只 存在 有 限 点 不 可 导 , 但 均 存 在 次 偏 导 ( max(x,y) 
函数 存在 次 偏 导 )， 详 见 第 3 章 。 正 因为 如 此 ， 深 度 学 习 三 巨头 之 一 
LeCun 老师 语 出 惊人 :“ 深 度 学 习 已 死 ， 可 微 编程 万 岁 !” 


损失 函数 和 最 优化 过 程 这 两 个 部 分 目前 相对 成 熟 , 但 也 有 很 大 的 
提升 空间 ， 特 别 是 最 优化 过 程 。 目 前 主流 的 是 基于 梯度 下 降 法 的 误差 
反 向 传播 方法 ， 该 方法 的 主要 缺点 是 需要 大 量 带 标签 的 样本 ， 因 此 如 
何 利用 无 标签 样本 进行 优化 也 是 研究 热点 之 一 。 


映射 模型 发 展 很 快 ， 特 别 是 卷 积 神经 网 络 模型 的 发 展 ， 可 以 说 是 
日 新 月 异 。 
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需要 指出 的 是 ， 机 器 学 习 模型 还 包括 没有 可 学 习 参 数 的 无 参数 模 
型 ， 如 著名 的 最 近邻 ( KNN )、 决 策 树 和 朴素 贝 叶 斯 等 方法 ， 由 于 这 
些 方法 没有 可 学 习 参数 ， 所 以 也 就 没有 优化 过 程 和 损失 函数 。 但 是 这 
些 方 法 都 有 超 参 数 ， 如 KNN 的 近邻 数 、 决 策 树 的 深度 和 最 大 宽度 等 。 


2.7 正则 化 


N 


正则 化 的 目的 是 控制 模型 的 学 习 容量 ,减弱 过 拟 合 的 风险 。 不 论 
是 参数 化 的 线性 模型 、 神 经 网 络 和 卷 积 神经 网 络 等 ， 还 是 无 参数 的 决 
策 树 以 及 朴素 贝 叶 斯 等 ， 机 器 学 习 模 型 均 存 在 过 拟 合 现象 。 过 拟 合 的 
外 在 表现 形式 是 : 模型 在 训练 集 上 的 准确 率 明 显 高 于 在 测试 集 上 的 准 
确 率 ， 即 模型 对 训练 集 学 得 比较 好 ， 而 测试 集 学 得 比较 差 。 所 以 在 实 
践 中 ,经常 利 用 这 个 性 质 来 判断 模型 是 否 发 生 过 拟 合 ， 如 果 过 拟 合 ， 
就 需要 增加 正则 化 强度 。 


举 个 例子 ， 现 在 要 拟 合 平面 上 的 3 个 点 ， 而 二 次 函数 能 恰好 拟 合 
这 3 个 点 ， 所 以 这 个 任务 的 理论 容量 只 需 二 次 函数 。 假 设 现在 用 三 次 
函数 进行 拟 合 ， 显 然 三 次 函数 也 能 完美 拟 合 这 3 个 点 。 但 是 存在 一 个 
很 严重 的 问题 : 解 不 唯一 ， 即 存在 无 穷 个 三 次 函数 能 完美 拟 合 这 3 个 
点 。 对 于 学 习 任 务 来 说 ， 如 果 模 型 存在 多 种 可 能 的 解 ， 则 说 明 模 型 的 
学 习 容量 过 高 了 。 我 们 到 底 该 选择 哪 一 个 解 ， 这 个 解 相 比 其 他 解 的 优 
势 在 哪里 呢 ?” 这 个 问题 目前 难以 回答 ， 普 遍 采用 的 原则 是 “ 奥 卡 姆 弟 
JI", 它 是 一 种 常用 的 自然 科学 研究 中 最 基本 的 原则 , 即 “ 当 有 多 个 假 
设 与 观察 一 致 时 , 选择 最 简单 的 那个 ”, 简单 就 是 美 。 如果 采 用 这 个 原 


Hu 


34 | 卷 积 神经 网 络 的 Python 实现 


则 ,那么 对 于 三 次 函数 ， 哪 种 形式 更 简单 呢 ? 这 显然 不 存在 一 个 简单 
答案 ， 需 借助 其 他 机 制 才 能 解决 。 假 设 认为 简单 的 三 次 函数 就 是 系数 
的 平方 和 最 小 ， 即 系数 的 2 范 数 最 小 ， 则 我 们 就 能 从 无 穷 个 三 次 函数 
中 选择 一 个 最 “合理 ”的 函数 。 这 个 额外 的 对 系数 2 范 数 最 小 化 的 要 
求 ， 就 是 我 们 对 模型 的 偏好 ， 也 就 是 L2 正则 化 。 所 以 ， 正 则 化 可 以 
看 作 我 们 对 模型 的 偏好 。 如 果 偏 好 设置 合理 ( 符合 样本 真实 规律 ) 就 
能 选 到 更 好 的 解 。 除 了 系数 的 平方 和 最 小 ， 还 可 以 要 求 系数 的 绝对 值 
之 和 最 小 ， 这 就 是 1 范 数 ，L1 正则 化 ; 要 求 系数 不 为 0 的 数量 最 少 ， 
这 就 是 0 范 数 ，L0 正则 化 。 这 3 种 范 数 对 应 3 种 正则 化 技术 ,是 最 常 
见 的 正则 化 技术 。 对 于 上 面 三 次 函数 拟 合 问题 ， 应 该 是 0 范 数 偏好 最 
合理 ， 因 为 这 会 使 三 次 项 系数 会 优化 为 0， 求 得 的 最 优 函 数 就 是 二 次 
函数 。 


再 次 强调 ， 在 实践 中 ， 一 般 采 用 容量 大 的 模型 进行 学 习 ， 然 后 通 
过 正则 化 来 控制 过 拟 合 。 通 过 上 面 的 例子 可 以 看 出 ， 容 量 大 的 模型 存 
在 更 多 的 可 能 解 。 通 过 梯度 下 降 法 能 比较 容易 找到 这 些 解 ， 然 后 通过 
正则 化 偏好 选择 其 中 一 个 。 相 比 之 下 ， 容 量 小 的 模型 的 解 可 能 很 少 ， 
因此 要 找到 质量 高 的 解 很 难 。 


— 


增加 模型 容量 很 简单 。 对 于 神经 网 络 和 卷 积 网 络 ， 只 需 增 加 深度 
或 宽度 ， 我 们 一 般 优 先 增加 深度 。 
2.7.1 范 数 正 则 化 


对 于 生活 中 的 实际 问题 ， 我 们 很 难 知道 理想 模型 的 形式 ， 往 往 不 
能 判断 哪 种 范 数 更 好 ， 因 此 ， 实 际 中 最 常用 的 是 L2 正则 化 技术 。 
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L2 正则 化 技术 ， 即 在 损失 函数 中 增加 权重 w 的 平方 和 31/24w” , 
其 中 正常 数 4 是 正则 化 系数 ，4 越 大 说 明正 则 化 强度 越 大 。L2 正则 化 
最 大 的 优点 是 : 权重 的 绝对 值 变 小 ， 没 有 哪个 权重 的 比重 过 大 ( 即 各 
个 权重 的 大 小 差不多 ), 这 样 和 输入 的 每 个 属性 通过 与 权重 相 乘 , 都 能 对 
分 类 产生 影响 。 


L1 正 则 化 技术 ， 即 在 损失 函数 中 增加 权重 w 的 绝对 值 和 >4|w| ， 
其 中 正常 数 4 是 正则 化 系数 ，4 越 大 说 明正 则 化 强度 越 大 。L1 正则 化 
的 最 大 优点 是 : 权重 变 得 稀疏 ， 即 权重 为 0 的 数量 比较 多 。 注 意 ， 这 
里 是 准确 地 为 0， 而 不 像 L2 正则 化 趋向 0. L1 正则 化 可 以 达到 特征 选 
择 的 目的 ， 即 权重 为 0 的 特征 对 分 类 没有 影响 ， 可 以 去 除 。 


L0 正 则 化 技术 的 主要 目的 是 使 权重 尽 可 能 为 0, 使 权重 变 得 稀 琉 。 
但 由 于 它 不 可 导 ， 所 以 实践 中 几乎 不 采用 。 同 时 ， 由 于 Ll 正则 化 也 
有 稀 玻 特性 ， 所 以 常 采用 LI1 正则 化 来 代替 L0 正则 化 。 


为 了 使 读者 对 范 数 正则 化 有 一 定 的 感性 和 理性 认识 ， 我 们 对 损失 
函数 进行 简化 分 析 。 假 设 只 有 一 个 权重 ， 数 据 损 失 在 局 部 可 近似 为 二 
次 曲线 ( 泰勒 展开 )。 


L2 正则 化 的 总 损失 函数 为 : 


loss 21/2a(w-w,Y +1/2A4w’ (a,4 » 0) (2.15) 

对 上 式 求 导 并 将 其 等 于 0， 得 最 优 权重 为 w= >w ， 没 有 正则 化 时 
1+ 一 
e 


的 最 优 权重 为 w =w,， 可 见 |w|<|w |， 即 权重 收缩 ， 趋 向 于 0。 进 一 
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步 分 析 , 当 孝 1 时 ,最 优 权重 收缩 得 小 , 受 正则 化 影响 小 ; 当 生 >1 


时 ， 最 优 权重 收缩 得 大 ,， 受 正则 化 影响 大 。c 的 物理 意义 是 权重 w 对 
损失 函数 的 敏感 程度 ，c 越 大 ， 表 示 权 重 对 损失 的 影响 越 大 ， 权 重 越 
重要 。 上 面 的 分 析 表 明 : 重要 的 权重 受 正 则 化 影响 小 ， 不 重要 的 权重 
受 正则 化 影响 大 ， 其 值 会 趋向 0， 但 不 等 于 0。 

LI 正则 化 的 总 损失 函数 为 : 


loss 21/2a(w— w,)^ - A| w|(a, À » 0) (2.16) 


由 于 式 (2.16) 不 可 导 ， 因 此 求 最 小 值 比较 困难 ， 而 式 (2.16) 显 然 关 
于 wo 对 称 ， 故 假设 ww>0， 可 得 最 优 权重 为 w=max(wo - 2,0) ， 没 有 
正则 化 时 的 最 优 权重 为 w =w, ,可 见 w<w ， 即 权重 变 小 。 进 一 步 分 
析 ， "ZH. 最 优 w=0; “iew, 时 ， 最 优 w=w -全 。 Em 
分 析 表 明 : 不 重要 的 权重 ( & 小 ) 受 正则 化 影响 大 ， 其 值 等 于 0; 重 
要 的 权重 受 正则 化 影响 小 , 但 更 接近 0 (向 0 移动 了 )。 当 Wo<0 时 ， 
分 析 结 论 是 一 致 的 ， 即 重要 的 权重 靠近 0， 不 重要 的 权重 等 于 0。 


综 上 分 析 ， 范 数 正则 化 后 ， 最 优 权重 会 受到 影响 ， 即 重要 权重 向 
0 靠近 , 不 重要 权重 变 为 或 趋 近 0。 总 之 , 权重 的 绝对 值 都 会 变 小 。 可 
以 说 ， 范 数 正则 化 偏好 小 的 权重 ， 认 为 小 权重 的 模型 更 简单 。 因 为 正 
则 化 强度 越 大 〈4 越 大 )， 最 优 权重 受到 的 影响 越 大 ， 所 以 数据 损失 部 
分 会 变 大 。 


需要 注意 的 是 ， 与 权重 不 同 ， 偏 置 不 需要 正则 化 ， 因 为 偏 置 不 与 
特征 相 乘 ， 不 能 控制 特征 的 影响 强度 。 
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L2 正则 化 的 代码 实现 如 下 : 


reg = 10**(-4) 


reg loss - 0.5*reg*np.sum(W*W) 
范 数 正则 化 只 适用 于 参数 化 模型 ， 对 于 如 何 正则 化 无 参 模型 ( 如 
决策 树 )， 读 者 可 自行 查阅 相关 资料 。 


2.7.2 ”提前 终止 训练 


当 模型 采用 迭代 法 进行 优化 时 ， 如 果 一 直 和 迭代 下 去 ， 训 练 集 的 错 
误 率 会 缓慢 下 降 ， 但 验证 集 的 错误 率 会 先 下 降 再 上 升 ， 这 表明 模型 发 
生 了 过 拟 合 。 所 以 ， 我 们 可 以 在 验证 集 错误 率 最 低 的 时 候 终 止 训练 ， 
利用 此 时 的 参数 作为 模型 的 最 终 参数 , 可 以 期 望 获得 更 好 的 测试 表现 。 
从 控制 过 拟 合 的 观点 看 ， 训 练 次 数 也 是 模型 的 超 参数 ， 这 个 超 参 数 在 
验证 集 上 具有 U 形 的 性 能 曲线 。 训 练 次 数 只 需要 对 模型 训练 一 次 ， 就 
可 以 尝试 很 多 值 的 超 参数 。 提 前 终止 十 分 有 效 ， 所 以 是 最 常用 的 正则 
化 方法 。 提 前 终止 法 的 缺点 是 需要 验证 集 ， 而 此 时 验证 集 的 样本 就 不 
能 用 来 训练 模型 ， 这 导致 样本 的 利用 率 不 高 。 


提前 终止 法 是 如 何 进 行 正 则 化 的 ? 从 表面 上 看 ， 我 们 并 没有 像 范 
数 正则 化 那样 对 参数 进行 任何 约束 。 其 实 ， 提 前 终止 法 把 参数 限制 在 
初始 参数 值 的 小 邻 域内 ， 即 用 学 习 率 s。 进行 了 7 次 迭代 。 假 设 梯度 有 
界 , 则 se7 就 能 衡量 参数 从 初始 值 到 达 的 空间 大 小 。 由 于 参数 初始 值 一 
般 在 0 附近， 这 样 就 相当 于 限制 参数 为 小 值 ， 偏 好 小 的 参数 ， 和 范 数 
正则 化 一 致 。 
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2.7.3 ”概率 的 进一步 解释 


softmax 分 类 器 的 归 一 化 向 量 为 每 个 类 别提 供 了 概率 , 该 向 量 的 最 
大 元 素 越 大 , 分 类 结果 正确 的 “可 能 性 ”就 越 大 。 为 什么 说 “可 能 性 ” 
呢 ? 这 是 因为 分 值 的 具体 取 值 受 正则 化 参数 4 控制 。 如 果 参 数 AREA, 
权重 w 就 会 更 小 、 更 分 散 ， 分 值 也 会 变 得 更 小 ， 这 样 归 一 化 向 量 的 元 
素 值 会 变 得 更 均匀 。 随 着 参数 4 不 断 增 大 ， 权 重 就 会 越 来 越 小 ， 最 后 
输出 的 概率 会 接近 于 均匀 分 布 ， 类 似 22.1 节 中 的 例子 。 这 就 是 说 ， 
softmax 分 类 器 输出 的 概率 的 绝对 大 小 难以 直观 解释 , 只 提供 一 种 对 分 
类 结果 的 相对 自信 。 


KAR E 


m 3 F 


神经 网 络 


申 经 网 络 是 对 线性 模型 的 升级 ， 使 之 能 对 线性 不 可 分 的 训练 集 达 
到 好 的 分 类 效果 ， 同 时 也 是 理解 卷 积 神经 网 络 的 基础 ， 其 核心 是 引入 
非 线 性 激活 函数 和 多 层 结 构 。 


>- 


3.1 数学 模型 


在 线性 模型 中 ， 我 们 利用 和 矩阵 乘法 获得 由 图 像 像 素 到 分 值 向 量 的 
映射 ， 图 像 的 像素 被 拉 伸 成 一 个 输入 行 向 量 ， 参 数 是 矩阵 ， 输 出 是 分 
值 向 量 ， 其 维 数 是 类 别 数量 。 比 如 , 在 MNIST 数据 库 中 ， 输 入 是 一 
个 [1Lx784] 的 行 向 量 ， 参 数 是 一 个 [784 x 10] 的 矩阵 ， 输 出 是 10 维 的 
分 值 行 向 量 。 


线性 模型 只 能 对 线性 可 分 的 训练 集 达到 较 好 的 分 类 效果 ， 那 么 怎 
么 对 其 升级 ， 使 之 能 对 线性 不 可 分 的 训练 集 也 达到 好 的 分 类 效果 呢 ? 
如 果 对 线性 模型 的 计算 过 程 进行 抽象 ， 设 输入 行 向 量 为 x， 人 参数 矩阵 
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为 丈 ， 分 值 向 量 为 ?， 则 了 = x 丈 。 这 个 公式 从 线性 代数 的 角度 看 ， 就 
是 线性 变换 ， 即 把 向 量 x 通 过 变换 矩阵 不 变换 为 向 量 y。 从 线性 变换 
的 角度 对 线性 模型 进行 升级 ， 就 很 容易 理解 。 向 量 可 以 看 作 高 维 空间 
的 点 ,线性 变换 就 是 把 一 个 维度 空间 的 点 变换 到 另 一 个 维度 空间 的 点 。 
线性 模型 只 进行 了 一 次 线性 变换 ， 那 么 能 不 能 通过 多 次 线性 变换 对 其 
升级 呢 ? 尝试 进行 两 次 线性 变换 ， 第 一 次 变换 矩阵 为 所 ， 输 出 为 h; 
第 二 次 变换 矩阵 为 有 于， 输出 为 MARN : 


h= xW, 


(3.1) 
y-hW, 


y-xWW, (3.2) 


根据 矩阵 运算 法 则 , 令 W-WAW,, WR (3.2) ZX y - xW, 4558 
是 一 个 线性 变换 ， 只 是 最 终 的 变换 矩阵 是 两 个 变换 矩阵 的 乘积 ， 并 没 
有 达到 升级 的 目的 。 怎 样 才能 利用 多 次 变换 ， 又 不 会 最 终 合并 成 一 个 
变换 呢 ? 这 里 最 关键 的 是 引入 非 线性 。 在 上 面 的 过 程 中 ， 第 一 次 变换 
的 输出 h， 它 直接 作为 第 二 次 变换 的 输入 ， 如 果 对 输入 严 先进 行 非 线 
性 变换 后 ， 再 将 其 作为 第 二 次 变换 的 输入 ， 则 最 终 变 换 就 不 会 合并 成 
一 个 变换 ， 达 到 升级 的 目的 。 加 入 非 线性 变换 的 公式 为 : 


a —- xW, 


h= f (a) (3.3) 
y=hW, 


注意 非 线性 函数 /作用 在 向 量 ge 上 ， 是 逐 元 素 进行 运算 的 ， 而 不 
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是 对 向 量 a 的 整体 运算 。 不 同 的 非 线性 函数 /对 最 终 的 学 习 效 果 有 很 


Ei 
影响 。 


理论 上 说 ， 我 们 可 以 进行 很 多 次 线性 变换 ， 每 次 线性 变换 的 输出 
向 量 都 需要 进行 非 线 性 变换 。 注 意 ， 最 后 一 次 的 线性 变换 不 需要 进行 
非 线性 变换 ， 因 为 最 后 的 输出 多 用 于 表示 分 值 (分 类 ), 可 以 是 任意 
的 实数 值 ， 或 者 实数 值 的 目标 值 ( 回归 ) 例如 ， 三 次 变换 的 公式 为 : 


h = f(xW,) 
h, = f(hW,) (3.4) 
y - h.W, 


在 一 般 情 况 下 , 同一 个 模型 中 的 非 线性 函数 ,/ 取 相同 的 函数 形式 。 
在 神经 网 络 术语 中 ,x 是 输入 层 ,，y 称 为 输出 层 ， 中 间 变 换 层 hM h 
称 为 隐 含 层 ， 非 线性 函数 f 称 为 激活 函数 。 存 在 多 少 次 线性 变换 ， 就 
称 为 多 少 层 神 经 网 络 ， 所 以 上 面 的 网 络 是 三 层 网 络 。 网 络 的 深度 是 网 
络 的 层 数 ， 隐 含 层 向 量 的 维 数 称 为 网 络 宽度 ， 向 量 元 素 称 为 神经 元 。 


3.2 激活 函数 


激活 函数 是 神经 网 络 的 关键 ， 用 于 对 输入 向 量 进行 逐 元 素 计算 。 
sigmoid 激活 函数 的 数学 公式 是 o(x) = 1/140), RAEE 3.1 左 
图 所 示 ， 把 输入 的 实数 值 “ 压 缩 ” 到 (0, 1) 开 区 间 : 负数 端 趋 近 0, 
正 数 端 趋 近 1。sigmoid 函数 的 应 用 曾经 非常 广泛 ， 因 为 它 能 很 好 地 解 
释 神经 元 的 激活 : 从 完全 不 激活 〈 输 出 0 ) 到 完全 激活 (输出 1 )。 
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但 现在 sigmoid 函数 很 少 使 用 了 ， 这 是 因为 它 有 一 个 重大 缺点 : 
饱和 特性 使 梯度 消失 。 当 输入 比较 大 的 负数 或 比较 大 的 正 数 时 ， 函 数 
值 接近 0 或 1, 处 于 饱和 状态 ,此 时 梯度 几乎 为 0, 这 导致 网 络 不 能 进 
行 有 效 学 习 ， 第 6 童 会 详细 解释 这 一 点 。 现 在 你 只 需 记 住 ， 网 络 在 激 
活 函 数 梯 度 接近 0 的 区 域 学 习 困 难 。 


tanh 非 线性 函数 的 图 像 如 图 3.1 右 图 所 示 ， 将 实数 值 压缩 到 (-1, 1) 
开 区 间 。 虽 然 它 和 sigmoid 函数 一 样 ， 也 存在 饱和 区 域 ， 但 与 sigmoid 
神经 元 不 同 的 是 ， 它 的 输出 是 零 中 心 的 ， 因 此 tanh 会 比 sigmoid 的 学 
习 效 果 更 好 。tanh 是 放大 平移 后 的 sigmoid， 这 两 个 函数 的 关系 如 下 : 


tanh(x) = 2e(x)-1 


3.1 sigmoid 函数 (Æ ) 和 tanh 函数 CA ) 的 图 像 


ReLU ( Rectified Linear Unit， 修 正 线性 单元 ) 函数 的 数学 公式 是 
f(x) = max(0, x), 其 图 像 如 图 3.2 所 示 。 它 与 线性 函数 ftx) =x 十 分 相似 ， 
只 是 输入 小 于 0 的 部 分 都 输出 为 0， 函 数 图 形 是 过 原点 的 折线 ， 十 分 
接近 线性 函数 。 这 几 年 ReLU 非常 流行 相 比 于 sigmoid 和 tanh 函数 ， 
ReLU 采用 随机 梯度 下 降 法 进行 优化 时 ， 收 敛 速度 更 快 ， 如 2012 年 的 
AlexNet 网 络 表 明 ReLU 收敛 速度 是 tanh 的 6 倍 左右 。 这 可 能 是 因为 
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该 函数 在 输入 大 于 0 时 的 梯度 为 1。sigmoid 和 tanh 函数 需要 指数 运算 , 
而 ReLU RSE (0 ) 进行 比较 ， 运 算 更 快 。 其 缺点 是 ， 当 ReLU 
的 输入 在 小 于 0 的 区 域 时 ,函数 值 永远 为 0, 梯度 为 0。 同样 是 饱和 区 
R, 这 会 导致 学 习 困 难 。 但 是 当 学 习 率 较 小 时 , 能 较 好 地 克服 该 缺点 。 


-10 -5 5 10 


图 3.2 ReLU 函数 的 图 像 
ReLU 存在 各 种 改进 版 本 ,都 是 为 了 克服 ReLU 在 输入 小 于 0 时 函 
数值 恒 为 0 的 缺点 ， 使 其 不 恒 为 0， 具 有 一 定 梯度 值 。 当 输入 大 于 0 
时 ， 保 持 不 变 。 


Leaky ReLU 是 ReLU 的 一 种 改进 版 本 ， 其 公式 为 : 


f(x) = 1(x<0)(0x) + Ix zz 0)(x) 


其 中 a dE— TUNE ERE, 100 是 指示 函数 ， 括 号 内 的 逻辑 表达 式 为 
真 时 , 输出 1， 和 否则 输出 O. BR foo) 在 输入 小 于 0 时 会 给 出 一 个 很 小 
的 梯度 值 a， 比 如 0.01。 这 个 激活 函数 有 时 表现 不 错 ， 但 并 不 稳定 。 


PReLU (参数 化 ReLU ) 把 负 区 间 上 的 斜率 当 作 可 学 习 的 参数 ， 
而 不 是 固定 的 0 或 小 常数 ， 由 此 增 大 学 习 容量 。 但 是 有 研究 指出 ， 该 
函数 并 不 是 在 所 有 任务 中 都 能 提高 学 习 效 果 。 


44 SX 


经 网 络 的 Python 实现 


ELU ( 指数 线性 单元 ) 的 左 侧 软 饱和 特性 使 ELU 对 输入 变化 或 品 


声 更 健壮 ，ELU 的 输出 均值 接近 于 零 ， 


/ao-| 


x 如 果 x 
e'-1 如 果 x<0 


这 会 提高 收敛 速度 ， 公 式 为 : 


三 0 


再 次 强调 ， 在 同一 个 网 络 中 一 般 使 用 同一 种 激活 函数 ， 而 不 混合 


使 用 多 种 激活 函数 。 


在 目前 的 实践 中 ， 推 荐 使 用 ReLU, 读者 也 可 以 尝试 Leaky ReLU 
或 ELU。tanh 理论 上 不 如 ReLU， 不 推荐 使 用 sigmoid。 


3.8 ”代码 实现 


神经 网 络 的 代码 和 线性 模型 很 相似 ， 只 是 增加 了 激活 函数 。 下 面 


是 三 层 神 经 网 络 计 算 分 值 向 量 的 代码 : 


np.dot(X, W1) 


dim2) 


# 数据 矩阵 ， 每 行 一 个 样本 


+ b1) 


hidden layer2 = np.maximum (0, np.dot (hidden_layer1, W2) + b2) 


D = 784 9 数据 维度 

K= 10 # XXX 

N = 128 # 样本 数量 

dimi = 128 $ 隐 含 层 宽度 

dim2 = 36 

Wl = 0.01 * np.random.randn(D, dim1) 
bl = np.zeros((1, diml)) 

W2 = 0.01 * np.random.randn(dimi1, 

b2 = np.zeros((1, dim2)) 

W3 = 0.01 * np.random.randn(dim2, K) 
b3 = np.zeros((1, K)) 

X - np.random.randn(N, D) 

hidden layerl = np.maximum(0, 

# ReLU 激活 

# ReLU 激活 

scores = np.dot (hidden layer2, 


W3) 


+ b3 H 输出 层 不 需要 激活 
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权重 和 偏 置 参数 采用 随机 初始 化 ， 输 入 样本 也 是 随机 创建 的 ， 方 
便 读 者 运行 程序 。 其 中 ，D 是 样本 属性 维度 ，K 是 类 别 数 ， 这 两 个 变 
量 对 具体 任务 来 说 是 常量 。diml 和 dim2 是 隐 含 层 向 量 的 维度 , 是 算 
法 的 超 参 数 。 注 意 ， 输 出 层 不 需要 非 线性 激活 。 


从 代码 中 能 直观 地 看 到 参数 数量 ， 权 重 wi 的 数量 为 Dx qiml ， 
权重 w2 的 数量 dimixdim2, BOE w3 的 数量 aim2 xK， 偏 置 的 数量 
IIH dimi, dim2 和 kK。 由 此 可 见 ，gim1l 和 dim 越 大 ,参数 数量 
越 多 ， 而 模型 学 习 容 量 越 大 ， 越 容易 导致 过 拟 合 。 因 此 ， 为 了 缓和 过 
拟 合 ， 需 要 正则 化 ， 最 常用 的 正则 化 是 权重 参数 的 L2 范 数 。 


3.4 学 习 容 量 和 正则 化 


申 经 网 络 的 数学 模型 表现 为 多 层 嵌 套 的 线性 变换 加 非 线 性 变换 ， 
在 数学 上 称 为 函数 族 。 机 器 学 习 的 目的 是 拟 合 由 特征 向 量 到 分 值 向 量 
的 映射 ， 该 映射 可 能 是 任意 的 ， 如 此 产生 的 问题 是 : 该 函数 族 的 拟 合 
能 力 如 何 ? 存在 不 能 被 神经 网 络 拟 合 的 函数 吗 ? 


>- 


目前 ， 理 论 上 已 经 证 明 ， 只 需 一 个 包含 足够 多 神经 元 的 隐 含 层 的 
神经 网 络 ， 就 能 够 以 任意 精度 逼近 任意 的 复杂 连续 函数 ， 这 是 一 个 通 
用 的 函数 拟 合 器 。 但 实际 中 的 效果 相对 较 差 ， 这 是 由 于 隐 含 层 需要 大 
量 的 神经 元 ， 优 化 困难 。 实 践 表 明 ， 多 层 网 络 比 单 层 网 络 好 ， 也 就 说 
是 深层 网 络 比 浅 层 网 络 好 ， 它 可 以 减 小 神经 元 数量 ， 而 且 比 较 容易 学 
习 到 最 优 参数 ( 如 采用 梯度 下 降 法 )。 
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那么 ， 面 对 一 个 具体 的 任务 ， 如 何 确定 最 优 网 络 结构 ， 如 隐 含 层 
的 层 数 (0、1、2 层 或 更 深 ) 及 每 层 神经 元 的 数量 。 经 过 几 十 年 的 研 
究 ， 目 前 理论 上 还 没有 严格 的 公式 能 指导 这 些 超 参数 的 设置 ， 但 得 到 
一 些 经 验 法 则 。 


当 网 络 层 数 和 每 层 神经 元 的 数量 增加 时 ， 网 络 的 学 习 容 量 增加 ， 
即 网 络 能 拟 合 更 复杂 的 函数 ( 分 类 界面 更 复杂 )。 然而 这 是 一 把 双 叉 
剑 : 优点 是 可 以 分 类 更 复杂 的 训练 集 ， 缺 点 是 可 能 会 造成 过 拟 合 。 例 
如 ， 二 维 平面 上 的 二 分 类 问题 ， 训 练 3 个 不 同 的 有 两 个 隐 含 层 的 神经 
网 络 ， 只 是 隐 含 层 神经 元 数量 不 同 ， 如 图 3.3 所 示 ， 最 右边 的 网 络 正 
确 分 类 了 所 有 的 训练 数据 ， 其 代价 是 分 类 界面 极 不 规则 ， 圆 圈 类 样本 
区 域 “ 侵 占 了 ”大 量 加 号 类 样本 区 域 ， 在 测试 时 ， 效 果 反 而 会 更 差 。 
最 左边 的 网 络 虽 然 错 分 了 3 个 圆圈 样本 , 但 分 类 界面 光滑 , 把 个 别 “ 深 
入 ”到 加 号 类 样本 区 域内 的 圆圈 类 样本 看 作 噪 声 ， 在 测试 时 能 获得 更 
好 的 泛 化 性 能 。 
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1 08 06 04 02 o 02 04 06 08 1 1 40 406 44 4 0 02 04 06 08 1 1 08 06 d4 422 0 02 04 06 08 1 
第 一 层 神经 元 个 数 5 第 一 层 神 经 元 个 数 10 第 一 层 神经 元 个 数 300 
第 二 层 神经 元 个 数 5 第 二 层 神经 元 个 数 30 第 二 层 神经 元 个 数 300 


图 3.3” 隐 含 层 神经 元 数量 和 学 习 容量 的 关系 ,不 同类 别 的 样本 用 不 同 
形状 的 图 案 表 示 ， 分 类 界面 由 训练 好 的 神经 网 络 做 出 


这 个 例子 看 起 来 支持 采用 学 习 容 量 小 的 网 络 ， 以 防止 过 拟 合 。 但 
实际 中 ， 如 果 仅 是 为 了 防止 过 拟 合 ， 一 般 不 采用 小 网 络 ， 而 是 用 正则 
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化 来 控制 过 拟 合 。 


这 主要 是 因为 对 于 小 网 络 ， 当 优化 算法 采用 梯度 下 降 法 等 局 部 方 
法 时 ， 优 化 算法 比较 容易 收敛 到 损失 值 比较 大 的 局 部 极 小 值 ， 导 致 分 
类 准确 率 过 低 。 而 对 于 大 网 络 , 优化 算法 不 管 收敛 到 哪个 局 部 极 小 值 ， 
这 些 局 部 极 小 值 的 损失 值 均 比 较 低 ， 而 且 分 类 准确 率 都 较 高 。 实 践 表 
8]: 小 网 络 对 参数 初始 值 很 敏感 ， 好 的 初始 值 能 收敛 到 低 损 失 值 ， 坏 
的 初始 值 会 收敛 到 很 高 的 损失 值 ; 而 大 网 络 对 参数 初始 值 不 敏感 ， 均 
能 收敛 到 较 小 的 损失 值 。 在 实践 中 ， 一般 采 用 多 次 随机 初始 化 参数 ， 
观察 损失 值 分 布 , 如 果 方 差 较 小 , 说 明 网 络 规模 较 大 ; 如 果 方 差 过 大 ， 
说 明 网 络 规模 过 小 ， 这 时 需要 增加 网 络 规模 。 


神经 网 络 超 参数 设置 的 技巧 是 尽 可 能 地 使 用 大 网 络 ， 采 用 正则 化 
来 控制 过 拟 合 。 多 次 随机 初始 化 参数 ， 观 察 损 失 值 方差 来 判断 网 络 规 
模 是 否 合适 ， 如 果 方差 大 ， 说 明 网 络 规模 过 小 。 


再 次 强调 ， 正 则 化 是 减弱 网 络 过 拟 合 的 好 方法 ， 如 图 3.4 所 示 。 


44 42 [] 02 04 06 08 1 4 48 206 04 -02 0 02 04 4 48 46 204 02 
正则 化 系数 2 — 0.01 正则 化 系数 4 = 0.005 正则 化 系数 4= 0.001 


图 3.4 不 同 L2 正则 化 强度 的 效果 : 每 个 神经 网 络 都 有 两 个 隐 含 层 ， 
每 层 神经 元 的 数量 分 别 为 100 和 300。 随 着 正则 化 强度 增加 ， 
分 类 边界 变 得 更 加 平滑 ， 过 拟 合 得 到 控制 。4 越 大 ， 表 示 
正则 化 强度 越 大 
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3.5 生物 神经 科学 基础 


从 前 面 的 内 容 可 以 看 出 ， 神 


经 网 络 完全 可 以 从 数学 角度 解释 。 神 


Fo 


经 网 络 算法 最 初 是 从 生物 神经 系统 获得 启发 的 ， 目 的 是 尽量 模拟 生物 
神经 功能 ， 但 渐渐 与 其 分 道 扬 义 ,成 为 一 个 偏 工程 的 领域 ， 并 在 机 带 
学 习 领 域 取得 良好 效果 。 现在 , 我们 从 生物 神经 的 角度 理解 上 述 计算 。 


生物 神经 网 络 最 本 质 的 特点 是 通过 大 量 神经 元 相互 连接 进行 信息 
传递 。 神 经 元 是 大 脑 的 基本 计算 单位 ， 人 类 的 神经 系统 中 大 约 有 860 
亿 个 神经 元 ， 大约 107 8] 10 ”个 突 触 把 所 有 神经 元 连接 在 一 起 ， 形 成 
一 个 复杂 的 大 网 络 。 具 体 传递 方式 为 : 每 个 神经 元 从 树 突 获得 输入 信 
号 ， 然 后 沿 着 它 唯一 的 轴 突 传递 并 产生 输出 信号 ， 轴 突 在 末端 会 逐渐 
A E, 通过 突 触 和 其 他 神经 元 的 树 突 相连 ， 
经 元 的 输入 信号 。 该 模型 可 以 抽象 为 如 下 的 计算 模型 神经 元 轴 突 传 
递 的 信号 x 基于 突 触 强 度 w( 权重 ), 与 其 他 神经 元 的 树 突进 行 乘法 交 


其 输出 信号 会 成 为 其 他 神 


互 。 突 触 的 强度 w 是 可 学 习 的 ， 且 控制 一 个 神经 元 对 男 一 个 神经 元 的 


影响 ( 正 权 重 使 其 兴奋 , 负 权 重 使 其 抑制 ), 树 突 将 信号 传递 到 细胞 体 ， 


言 号 在 细 
会 被 激活 


胞 体 中 相 加 。 相 加 之 和 高 于 某 个 阔 值 〈 仿 置 ) 时 ， 神 经 元 将 


PRAE, HU 


主要 采用 sigmoid 函数 。 所 以 ， 


算 模型 的 代码 如 下 : 


， 癌 其 轴 突 输出 一 个 峰值 信号 。 神 


经 元 的 激活 被 建 模 为 激活 


一 个 神经 元 前 向 传播 的 计 


+ 输入 和 权重 是 1D 的 numpy 数组 ， 阅 值 是 一 个 数字 
cell body sum = np.sum(inputs * weights) + bias 


firing rate - 1.0 / 


# sigmoid 激活 函数 


(1.0 + np.exp(-cell. body sum)) 
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每 个 神经 元 都 对 输入 和 权重 向 量 进行 内 积 ， 然 后 加 上 立 值 ， 最 后 
使 用 sigmoid 激活 函数 。 


注意 ， 这 个 计算 模型 非常 粗 烟 地 模拟 了 生物 神经 元 的 核心 功能 。 
神经 元 计算 模型 与 线性 模型 很 像 ( 都 是 向 量 内 积 ), 当 神 经 元 的 激活 函 
数值 接近 1 时 ， 认 为 输入 样本 是 正 类 ; 当 激 活 函 数值 接近 0 时 ， 认 为 
输入 样本 是 负 类 ， 此 时 单个 神经 元 就 是 一 个 线性 二 分 类 顺 。 


中 经 网 络 是 多 个 神经 元 的 集合 ， 如 何 组 织 多 个 神经 元 呢 ? 最 简单 
的 方式 是 将 神经 元 分 层 ， 每 层 有 多 个 数量 不 等 的 神经 元 ， 整 个 网 络 有 
多 层 。 那 么 ， 这 些 神经 元 之 间 如 何 连接 呢 ? 最 简单 的 方式 是 同一 层 内 
神经 元 没有 连接 ， 每 个 神经 元 只 与 前 后 层 神经 元 连接 ， 且 是 全 连接 ， 
即 每 个 神经 元 与 前 后 层 的 所 有 神经 元 都 连接 。 这 就 是 著名 的 多 层 前 僻 
神经 网 络 ， 其 数学 模型 是 : 


>- 


h = f(xW,) 
h, = f(hW,) (3.5) 
y - hW, 


Eit y oo pr | CRUCE SCHEME CAT, is HE ERAK AA 
邻 层 神经 元 的 全 连接 ， 利 用 非 线性 函数 实现 神经 元 激活 。 模 型 中 变量 
的 具体 含义 见 3.1 节 。 


多 层 前 馈 神 经 网 络 是 最 简单 的 神经 网 络 之 一 , 除 此 之 外 还 有 很 多 ， 
比较 著名 的 有 RBF, ART. SOM, Elman 和 Boltzmann 等 ， 如 果 读 者 
感 兴 趣 ， 可 查阅 相关 资料 。 
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卷 积 神经 网 络 的 结构 


上 一 章 介 绍 的 神经 网 络 采用 分 层 结构 ， 层 与 层 之 间 的 神经 元 进行 
全 连接 ， 本 章 将 其 称 为 常规 神经 网 络 。 同 样 ， 卷 积 神经 网 络 也 是 多 层 
网 络 结构 ， 层 与 层 之 间 的 神经 元 进行 连接 ， 层 内 神经 元 之 间 无 连接 。 
对 神经 元 的 操作 也 是 输入 和 权重 向 量 进 行内 积 后 进行 非 线性 激活 。 网 
络 最 后 会 输出 分 值 向 量 , 定义 损失 函数 , 并 采用 梯度 下 降 法 进行 优化 。 
那么 ， 卷 积 神经 网 络 和 常规 神经 网 络 有 什么 不 同 呢 ? 


发 展 卷 积 神经 网 络 的 初衷 是 进行 图 像 分 类 。 图 像 主要 有 如 下 3 个 
特性 。 


OQ 多 层次 结构 : 如 边缘 组 成 眼睛 ， 眼 睛 和 上 鼻子 等 组 成 脸 ， 脸 和 身 
体 等 组 成 人 。 

O 特征 局 部 性 : 如 眼睛 就 局 限 在 一 个 小 区 域 ， 提 取 眼 睛 特征 时 ， 
只 需 根据 这 个 小 区 域 的 像素 提取 即 可 。 


第 4 章 ” 卷 积 神 经 网 络 的 结构 | 51 


O 平移 不 变性 : 如 不 管 眼睛 在 图 像 哪个 位 置 ， 特 征 提取 器 都 需 提 
取 眼 睛 特征 。 


根据 图 像 的 3 个 特性 ， 卷 积 神经 网 络 引 入 特有 的 先 验 知识 一 一 深 
度 网 络 、 局 部 连接 和 参数 共享 。 


虽然 卷 积 网 络 是 为 图 像 分 类 而 发 展 起 来 的 ， 但 现在 已 经 被 用 在 各 
种 任务 中 ， 如 语音 识别 和 机 顺 翻 译 等 。 只 要 信和 号 满足 多 层次 结构 、 特 
征 局 部 性 和 平移 不 变性 3 个 特性 ， 都 可 以 使 用 卷 积 网 络 。 在 本 章 中 ， 
我 们 只 针对 图 像 分 类 任务 来 讲解 。 


4.1.1 局 部 连接 

在 常规 神经 网 络 中 ， 每 个 神经 元 都 与 前 一 层 中 的 所 有 神经 元 连接 
(全 连接 ), 但 是 神经 元 全 连接 方式 在 图 像 分 类 中 既 不 现实 也 没有 必要 。 
例如 , 在 CIFAR-10 F, 图 像 的 尺寸 是 32 x 32 x 3 ( 宽 高 均 为 32 RR, 
3 个 颜色 通道 )， 如 果 采 用 全 连接 方式 , 第 一 个 隐 含 层 的 每 个 神经 元 就 
有 32x32x3=3072 个 权重 ， 这 个 值 感觉 还 不 是 很 大 。 但 是 对 于 更 大 
尺寸 的 图 像 , 如 224 x 224 x 3 的 图 像 , 一 个 神经 元 包含 224 x 224 x3 = 
150 528 个 权重 , 而 隐 含 层 肯定 会 包含 很 多 神经 元 , 那么 第 一 个 隐 含 层 
权重 的 数量 就 可 能 达 千 万 量 级 或 亿 级 。 因 此 ， 全 连接 方式 下 ， 大 量 的 
参数 会 导致 网 络 过 拟 合 ， 而 存储 大 量 权重 还 需要 超大 内 存 ， 这 一 点 也 
会 限制 其 应 用 。 


根据 特征 局 部 性 ， 如 果 某 个 神经 元 需要 提取 眼睛 特征 ， 则 只 需 针 
对 眼睛 所 在 的 局 部 区 域内 的 像素 进行 特征 提取 ， 不 需要 提取 眼睛 区 域 
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外 的 信息 ， 所 以 该 神经 元 只 需 与 眼睛 区 域 进行 局 部 连接 ， 其 他 区 域 是 
不 需要 连接 的 。 


4.1.2 ”人 参数 共享 

在 图 像 分 类 中 ， 同 一 物体 可 能 会 在 图 像 的 不 同位 置 出 现 ， 例 如 

人 脸 会 出 现在 图 像 的 任意 位 置 ， 神 经 元 必须 对 人 脸 的 位 置 不 敏感 。 

而 识别 不 同位 置 人 脸 的 不 同 神经 元 ， 采 用 的 权重 应 该 是 相同 的 。 因 

为 神经 元 学 习 是 先 通过 权重 和 像素 进行 内 积 ， 再 进行 非 线 性 激活 实现 
参 


的 (同一 人 脸 的 像素 相同 ) 这 些 神经 元 共享 相同 的 参数 , 这 就 是 参数 
共享 。 


注意 ， 人 脸 仅 是 位 置 不 同 ， 即 只 进行 了 平移 运动 ， 所 以 称 为 图 像 
的 平移 不 变性 。 如 果 对 人 脸 进行 了 旋转 ， 特 别 是 旋转 角度 比较 大 时 ， 
此 时 检测 人 脸 所 用 的 参数 和 检测 未 旋转 的 人 脸 一 般 是 不 同 的 。 这 和 我 
们 人 类 相似 ， 读 者 可 以 自己 做 个 实验 ， 观 察 被 旋转 不 同 角度 的 同一 张 
人 脸 照 片 ， 你 会 发 现 当 角度 较 大 时 ， 可 能 就 认 不 出 此 人 。 所 以 ， 人 类 
视觉 系统 具有 良好 的 平移 不 变性 ， 但 旋转 不 变性 要 差 很 多 。 卷 积 网 络 
与 人 类 视觉 类 似 ， 很 好 地 解决 了 平移 不 变性 ， 但 旋转 不 变性 解决 得 不 
好 ， 对 旋转 角度 比较 敏感 。 


4.1.3 3D 特征 图 

图 像 是 二 维 结构 ， 为 了 识别 人 脸 ， 需 要 大 量 的 神经 元 协同 工作 ， 
这 些 神 经 元 都 与 该 人 脸 连接 。 要 提取 人 脸 不 同 的 特征 ， 必 须 有 大 量 的 
神经 元 ， 它 们 从 观察 输入 的 同一 局 部 区 域 提取 不 同 特征 。 这 样 神经 元 


[na 
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的 组 织 方式 必然 是 三 维 : 高 度 、 宽 度 和 深度 。 高 度 和 宽度 决定 神经 元 
的 空间 尺寸 ， 深 度 决 定 了 对 输入 区 域 提 取 特 征 的 维度 ( 每 个 神经 元 提 
取 一 个 特征 ), 例如 ,将 CIFAR-10 中 的 图 像 作为 输入 ， 该 输入 的 维度 
是 32x32 x3，32 x32 是 空间 尺寸 ，3 是 深度 ,表示 同一 位 置 有 3 个 
特征 ( 即 红 、 绿 和 蓝 这 3 种 颜色 特征 ); 再 如 ， 卷 积 网 络 中 某 一 层 是 7 
x7x128, 7x1 是 空间 尺寸 ，128 表示 同一 位 置 有 128 个 特征 。 我 们 
把 神经 元 的 3D 排列 称 为 3D 特征 图 。3D 特征 图 表示 为 [Hx W x D]. 
其 中 互 是 高 度 ， 丈 是 宽度 , 刀 是 深度 ， 宽 度 和 高 度 称 为 空间 维度 。3D 
特征 图 可 以 看 作 刀 个 2D 数据 。 每 个 2D 数据 的 尺寸 均 是 [A xW], y 
为 特征 图 ，3D 特征 图 总 共有 DD 个 特征 图 。 


常规 神经 网 络 的 向 量 可 以 看 作 3D 特征 图 的 特例 (1x1xD)， 即 
空间 尺寸 为 1 的 3D 特征 图 。 卷 积 神经 网 络 和 常规 神经 网 络 一 样 ， 它 
们 由 层 组 成 ， 每 层 使 用 可 微 函数 将 输入 的 3D 特征 图 (向量 ) 变换 为 
输出 3D 特征 图 。 


在 卷 积 神经 网 络 中 ， 主 要 包含 3 种 基本 模块 : 卷 积 层 、 池 化 层 和 
全 连接 层 ， 下 面 将 分 别 介 绍 它 们 。 


4.2” 卷 积 层 


卷 积 网 络 采用 卷 积 层 来 实现 上 述 的 局 部 连接 和 参数 共享 , 所 以 
卷 积 层 是 卷 积 网 络 的 核心 ,而 卷 积 层 的 核心 是 卷 积 运算 。 请 读者 思 
考 为 什么 卷 积 运算 能 实现 局 部 连接 和 参数 共享 。 
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4.2.1 卷 积 运算 及 代码 实现 

卷 积 网 络 的 卷 积 运算 和 信号 处 理 中 的 卷 积 运算 不 太一 样 ， 把 它 理 
解 为 向 量 内 积 更 合适 ( 神经 元 的 工作 机 制 ), 在 图 像 处 理 中 , 边缘 检测 
算法 就 是 利用 卷 积 运算 实现 的 。 卷 积 运算 是 线性 滤波 ， 对 于 图 像 中 的 
每 个 像素 ,计算 以 该 像素 为 中 心 的 局 部 窗口 内 的 像素 和 卷 积 核 的 内 积 ， 
并 将 其 作为 该 像素 的 新 值 。 遍 历 图 像 中 的 每 个 像素 ， 进 行 上 述 内 积 操 
WE, 就 完成 了 一 次 滤波 , 得 到 一 个 和 原 图 像 尺 寸 一 样 的 “新 图 像 "。 局 
部 窗口 和 卷 积 核 的 大 小 一 样 ， 卷 积 核 是 一 个 小 矩阵 (3 x3 或 5x5)， 


gli, j)= È fü jemhma) 


g-f*h 


(4.1) 


其 中 Gi,7) 是 中 心 像素 的 坐标 ，i= 1 2, sh, j=1,2 w, XE hÆ 
图 像 高 度 ，w 是 图 像 宽 度 。 卷 积 需 遍历 整个 图 像 。f 是 原 图 像 (注意 它 
是 二 维 矩 阵 )，g 是 “新 图 像 *，h ERZ ( 这 里 卷 积 核 的 大 小 是 3 x 
3), * 是 卷 积 运算 符 。 可 以 看 出 , 卷 积 就 是 滤波 ， 所 以 卷 积 核 也 被 称 为 
滤波 器 。 


当 对 图 像 边界 进行 卷 积 时 ， 卷 积 核 的 一 部 分 位 于 图 像 外 面 ， 无 像 
素 与 之 相 乘 ， 此 时 有 两 种 策略 : 一 种 是 舍弃 图 像 边 缘 ， 这 样 会 使 “新 
图 像 ” 尺 寸 减 小 (对 于 3x3 卷 积 核 ， 每 边 会 减 小 1 ); 另 一 种 是 采用 
像素 填充 技巧 ， 人 为 指定 位 于 图 像 外 面 的 像素 值 ， 使 卷 积 核能 与 之 相 
乘 。 像 素 填 充 主要 有 两 种 方式 : 0 填充 和 复制 边缘 像素 。 在 卷 积 神经 
网 络 中 ， 普 遍 采 用 0 填充 方式 。 
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图 4.1 演示 了 卷 积 运算 过 程 ， 其 中 输入 特征 图 的 尺寸 为 4x4， 采 
用 0 填充 后 尺寸 为 6x 6， 卷 积 核 大 小 为 3x3， 步 长 为 1， 则 输出 特征 
图 的 尺寸 为 4x 4， 与 输入 特征 图 尺寸 一 致 。 其 中 ， 输 出 0.2 是 第 一 个 
局 部 窗口 3 x 3 和 卷 积 核 的 内 积 : 


0.2 = 0x(-0.2)+0x0.1+0x(-0.1)+0x(-0.1)+2x(-0.1)+0x0.21 
0x0.3+1x0.2+2x0.1 


2 0 1 1 
Loi 9 输入 特征 图 
0. 3 2 
2 2 0 1 


邮 


填充 后 的 特征 图 卷 积 核 输出 特征 图 
图 4.1 卷 积 运算 示意 图 


在 卷 积 运算 中 , 卷 积 核 的 取 值 是 核心 ， 取 值 不 同时 ,“ 新 图 像 ”的 
效果 差别 很 大 。 通 过 卷 积 运算 可 以 获得 原 图 像 的 边缘、 模糊 图 像 和 锐 
化 图 像 等 。 这 些 著 名 的 卷 积 核 如 下 所 示 。 


a 图 像 模糊 的 卷 积 核 : [1 11;111;111]/9 

口 图 像 锐 化 的 卷 积 核 : [-1 -1 -1; -19 -1; -1 -1 -1] 
a 边缘 检测 的 卷 积 核 : 

m Sobel: [-1 -2 -1;000;121] 及 其 转 置 

m Prewitt: [-1 -1 -1; 000;111] 及 其 转 置 
m Laplace: [11 1; 1 -8 1; 1 1 1] 
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图 4.2 展示 了 图 像 边缘 检测 的 效果 ,为 什么 Sobel 等 卷 积 核能 检测 
出 图 像 的 边缘 呢 ? 这 是 因为 在 图 像 的 边缘 区 域 ， 像 素 值 的 变化 剧烈 ， 
而 在 平滑 区 域 , 像素 值 基本 一 致 。 计 算 局 部 窗口 的 像素 差 能 区 分 边缘 和 
平滑 区 域 ， 像 素 差 大 的 为 边缘 ， 像 素 差 接 近 0 的 为 平滑 区 域 。 边 缘 检 
测 的 卷 积 核 计 算 了 窗口 内 像素 差 ， 其 他 两 种 卷 积 核 请 读者 自行 分 析 。 


图 4.2. Sobel 卷 积 核 检 测 图 像 边缘 ， 左 图 是 灰 度 源 图 像 ， 
右 图 是 边缘 强度 网 


下 面 通过 代码 来 更 清楚 地 了 解 卷 积 运算 的 细节 : 


h = 32 # 输入 数据 的 高 度 

w = 48 # 输入 数据 的 宽度 

input 2Ddata = np.random.randn(h, w) 

output 2Ddata = np.zeros(shape = (h, w)) 4 卷 积 输出 尺寸 与 输入 一 样 


kern = np.random.randn(3, 3) 4 3x3 卷 积 核 
* kern - np.array([[-1, -2, -11], [0, 0, 0], I1, 2, 111], 
dtype = np.float64) 4 sobel 卷 积 核 


padding = np.zeros(shape = (h42, w42)) # 0 填充 
padding[1:-1, 1:-1] = input 2Ddata 
for i in range(h): 


for j in range(w): 
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Q window = padding[i:i-s3, j:j«3] 
# 中 心 像素 (i,j) 的 局 部 窗口 
output 2Ddata[i, j] = np.sum(kern*window) 


# 卷 积 运算 即 内 积 


这 里 使 用 了 随机 生成 二 维 输入 数据 input 2Ddata 和 3 x3 的 卷 
积 核 kern。 注 意 语句 中 局 部 窗口 的 位 置 计算 是 以 0 填充 后 的 图 像 
为 基准 的 ， 而 公式 (4.1) 是 以 原 图 像 为 基准 的 ， 故 索引 有 所 不 同 。 读 者 
可 以 读 取 灰 度 图 像 ， 将 卷 积 核 设置 为 上 述 的 卷 积 核 ， 显 示 卷 积 后 的 新 
图 像 。 新 图 像 可 以 使 我 们 获得 更 直观 的 感受 ， 显 示 图 像 时 需要 注意 ， 
由 于 新 图 像 的 像素 有 正 有 人 负 ， 需 要 先 取 绝 对 值 再 显示 。 


4.2.2” 卷 积 层 及 代码 初级 实现 


上 面 介绍 的 卷 积 运算 的 输入 和 输出 数据 都 是 2D 特征 图 ， 而 卷 积 
网 络 都 是 3D 特征 图 ,如何 对 卷 积 运 算 进 行 升级 , 使 之 能 处 理 3D 特征 
图 呢 ? 


x 


重复 一 遍 ，3D 特征 图 表示 为 [Hx Wx D], Hob HESE, WE 
宽度 ,，D 是 深度 。 理 解 3D 特征 图 是 打开 卷 积 层 的 钥匙 ，3D 特征 图 可 
以 看 作 忆 个 2D 数 据 , 每 个 2D 数据 的 尺寸 均 是 [Ax W], 称 为 特征 图 ， 
3D 特征 图 总 共有 D 个 特征 图 。 升 级 做 法 如 下 : 每 个 特征 图 都 分 别 与 
一 个 卷 积 核 进行 卷 积 运算 ,这 样 就 得 到 万 个 特征 图 , 这 DD 个 特征 图 先 
进行 矩阵 相 加 ， 得 到 一 个 特征 图 ， 再 给 该 特征 图 的 每 个 元 素 再 加 一 个 
相同 的 偏 置 ,最终 得 到 一 个 新 的 特征 图 。 因 为 最 终 需 要 得 到 3D 特征 图 ， 
所 以 上 述 过 程 需 进 行 多 次 ， 这 就 是 一 个 完整 的 卷 积 层 操作 。 从 上 面 的 
过 程 可 以 看 出 ,为 了 获得 每 个 输出 特征 图 ， 需 要 DD 个 卷 积 核 ， 我 们 把 
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这 DD 个 卷 积 核 称 为 一 个 卷 积 核 组 ， 它 是 一 个 3D 和 矩阵。 为 了 获得 DD 个 
特征 图 ， 则 需 DD 个 卷 积 核 组 。 图 4.3 演示 了 卷 积 层 操作 示意 图 。 其 中 ， 
输入 特征 图 是 3x3x3, 无 0 填充 。 卷 积 核 组 的 尺寸 为 2x2x3， 则 输 
出 特征 图 的 尺寸 为 2 x 2x2。 每 个 卷 积 核 组 有 3 个 卷 积 核 ( 与 输入 特 
征 图 数量 一 至 ), 有 2 组 卷 积 核 , 故 输 出 2 个 特征 图 。 每 个 输入 特征 图 
与 对 应 的 卷 积 核 进行 卷 积 运算 ， 所 得 值 相 加 ， 得 到 输出 特征 图 的 元 素 
值 。 比如, 第 一 个 输出 特征 图 的 第 一 个 元 素 0.2, 它 是 第 一 组 卷 积 核 与 
输入 特征 图 的 第 一 个 局 部 窗口 2 x 2 x 2 进行 内 积 的 结 


输出 特征 图 


卷 积 核 


图 4.3” 卷 积 层 操 作 示意 


程序 能 代替 千言 万 语 ， 直 观 地 展示 卷 积 层 运算 过 程 的 细节 。 下 面 
的 代码 是 完全 按照 上 述 描述 编写 的 。 


def conv2D(input 2Ddata, kern): 
(h, w) = input 2Ddata.shape 4 输入 数据 的 高 度 和 宽度 
(kern h, kern w) = kern.shape 4 卷 积 核 的 高 度 和 宽度 
padding h = (kern h-1)//2 
padding w - (kern w-1)//2 
padding = np.zeros (shape = (h«2*padding h, w-«2*padding. w)) 
# 0 填充 
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padding[padding h:-padding h, padding w:-padding w] = 
input 2Ddata 

output 2Ddata = np.zeros(shape = (h, w)) # 输出 数据 的 尺寸 和 
输入 数据 一 样 


for i in range(h): 
for j in range(w): 
window = padding[i:i-«kern h, j:j-«kern wl] 
# 局 部 窗口 
output 2Ddata[i,j] = np.sum(kern*window) $4 内 积 
return output 2Ddata 
FE HE TE E FE TE HE FE HE FE E HE FE HE TE E HE FE HE FE HE TE E HE TE HE FE HE FE AE FE TE HE TE EE HE TE EE EHE E EE E EE E 


h = 32 4 输入 数据 的 高 度 

W = 48 # 输入 数据 的 宽度 

in d = 12 4 输入 数据 的 深度 

out d = 24 $4 输出 数据 的 深度 

input 3Ddata = np.random.randn(h, w, in d) 


output 3Ddata - np.zeros(shape - (h, w, out d)) 
(kern h, kern w) = (3, 3) & 或 者 (5，5) 


kerns - np.random.randn(out d, kern h, kern w, in d) 
# 4D 卷 积 核 
bias = np.random.randn(out d) # 1D 偏 置 


for m in range(out d): 4 每 一 个 输出 2D 数据 
for k in range(in d): 4 每 一 个 输入 2D 数据 
input 2Ddata = input 3Ddata[:,:, k] # 第 k 个 输入 2D 数据 
kern = kerns[m, :,:, k] 
output 3Ddata[:,:, m] += conv2D(input 2Ddata, kern) 
# 加 上 每 个 卷 积 结果 
output 3Ddata[:,:, m] += bias[m] # 每 个 输出 2D 数据 只 有 
一 个 偏 置 
首先 定义 conv2D 函数 实现 常规 卷 积 运算 ， 注 意 卷 积 核 kern 的 


尺寸 为 奇数 , 一 般 是 正方 形 。 注 意 padding 的 实现 细节 , 即 0 填充 的 
数量 。 
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然后 定义 输入 和 输出 的 3D 特征 图 。 注 意 卷 积 运 算 没 有 改变 特征 
图 的 空间 尺寸 , 但 深度 维度 可 能 会 增加 。 本 例 中 , 输入 深度 in_a = 12 
维 ， 输 出 深度 out a = 24 维 。 每 个 输出 特征 图 需要 累加 输入 3D 特 
征 图 的 每 个 2D 特征 图 的 卷 积 结 果 ， 最 后 加 一 个 偏 置 。 注 意 卷 积 核 是 
四 维和 矩阵 ,共有 out a 个 卷 积 核 组 ,每 个 卷 积 核 组 的 尺寸 是 [kern_h x 
kern w x in d], 每 次 和 输入 2D 特征 图 进行 卷 积 运算 的 二 维 卷 积 
核 的 取 值 都 不 相同 。 四 维 卷 积 核 和 一 维 偏 置 ， 就 是 卷 积 层 需要 学 习 的 
参数 。 


上 面 的 程序 有 利于 理解 卷 积 层 的 运算 ， 但 实际 的 运行 效率 非常 低 ， 
后 面 会 实现 一 个 高 效 版 本 的 程序 。 


总 结 一 下 ， 卷 积 层 运算 需要 的 参数 量 如 下 。 


O 卷 积 核 四 维和 矩阵 : out à x kern h x kern w X in d 
口 偏 置 向 量 : out de 


其 中 参数 数量 与 输入 和 输出 3D 特征 图 的 深度 成 正比 ， 与 卷 积 核 
的 面积 成 正比 。 和 需要 特别 注意 的 是 ， 它 与 特征 图 的 空间 尺寸 无 关 。 


进行 上 面 的 卷 积 层 运算 后 ， 输 出 特征 图 的 空间 尺寸 和 输入 特征 图 
一 致 。 这 是 卷 积 网 络 中 最 常用 的 卷 积 类 型 。 但 有 时 需要 缩小 输入 特征 
图 的 空间 尺寸 ， 一 般 缩小 为 原来 的 四 分 之 一 ， 这 样 就 不 需要 对 输入 特 
征 图 的 每 个 元 素 都 进行 卷 积 运算 ， 而 是 进行 下 采样 ， 下 采样 的 间隔 称 
为 步 长 S。 上 面 的 代码 中 ， 步 长 8$=1， 故 程序 不 需 指 明 步 长 。 包 含 步 
长 S$ 的 程序 如 下 : 


© GGG 
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def conv2D(input 2Ddata, kern, in size, out size, 
kern size - 3, stride - 1): 

(hl, w1) = in size 9* 输入 数据 尺寸 

(h2, w2) = out size # 输出 数据 尺寸 


output 2Ddata - np.zeros(shape - out size) 


for i2,i1 in zip(range(h2), range(0, hl, stride)): 
# 输入 数据 进行 步 长 
for j2,j1 in zip(range(w2), range(0, wl, stride)): 
window = input 2Ddata[il:il-«kern size, 
ji:ji«kern size] # 局 部 窗口 
output 2Ddata[i2, j2] = np.sum(kern*window) # 内 积 
return output 2Ddata 
FEFE HE TE FE HE FE FE E FE HE TE FE HE TE FE HE HE HE HE FE HE E FE HE TE TE E FE FE E TE FE HE FE FE HE HE HE FE FE HE TE EE ERE ERE E E E HEURE EGRE IG E 


hi = 32 # 输入 数据 高 度 
wl = 48 # 输入 数据 宽度 
di = 12 # 输入 数据 深度 


input 3Ddata = np.random.randn(h1, w1, d1) 


P = (F-1)//2 # 填充 尺寸 


h2 = (hl-F42*P)//S + 1 # 输出 数据 高 度 
W2 = (wl-F«2*P)//S + 1 4 输出 数据 宽度 


padding = np.zeros(shape = (h1+2*P, w1+2*P, d1)) # 0 填充 
padding[P:-P, P:-P, :] = input 3Ddata 


output 3Ddata = np.zeros(shape = (h2, w2, d32)) 


kerns = np.random.randn(d2, F, F, d1) # 4D 卷 积 核 
bias = np.random.randn(d2) 4 1D 偏 置 


for m in range(d2): # 每 个 输出 2D 数据 
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for k in range(d1): 4 每 个 输入 2D 数据 


input 2Ddata = padding[:,:, k] # 第 k 个 输入 2D 数据 
kern = kerns[m, :,:, k] # 卷 积 核 

output 3Ddata[:,:, m] += conv2D(input 2Ddata, kern, 
in size = (h1, w1), out size = (h2, w2), kern size = F, 


stride = S) 4 加 上 每 个 卷 积 结果 


output, 3Ddata[:,:, m] += bias[m] # 每 个 输出 2D 数据 只 有 
一 个 偏 置 


HTK stride 可 能 为 2, 故 conv2D 函数 需要 知道 输入 和 输出 
村 征 图 的 空间 尺寸 。 需 要 注意 的 是 ， 该 函数 的 输入 特征 图 是 0 填充 后 
的 特征 图 。 语 句 中 表明 输出 数据 的 步 长 永远 为 1， 输 入 数据 的 步 长 为 
参数 stride。 语句 @ 表 明 输 入 数据 的 局 部 窗口 是 连续 的 。 语句 CD 是 
计算 每 边 0 填充 的 数目 ，P = (F-1)//2， 这 样 可 以 保证 卷 积 核 位 于 
图 像 边缘 时 ， 刚 好 有 足够 的 0 与 其 进行 内 积 。 常 见 的 3 种 卷 积 核 尺 十 
对 应 的 P: F = 3,，P =1;F=5,P=2;F=1,P=0。 语句 @ 
和 语句 O 是 计算 输出 特征 图 空间 尺寸 的 公式 : n2 = (h1-F+2*P)// 
S +1，w2 = (w1-F42*P)//8 + 1, 这样 当 s=1 和 P = (F-1)//2 
时 ， 输 出 h2 = hi, w2 = w1， 卷 积 层 没有 改变 特征 图 的 空间 尺寸 。 
语句 (0 进行 0 填充 。 注 意 步 长 8 不 影响 卷 积 层 参数 数量 。 


T 


算法 的 超 参 数 是 卷 积 核 太 寸 民 ， 步 长 S 和 输出 特征 图 的 深度 d2- 
不 需 太 大 , 为 3 最 为 常见 ,因为 卷 积 核 参 数 数量 与 玉 的 平方 成 正比 ， 
正太 大 会 导致 参数 数量 急剧 增加 ,运算 量 也 急剧 增加 。$ 最 常用 1,， 偶 
尔 用 2， 虽 然 增 大 S 能 减 小 运算 量 , 但 输出 特征 图 的 空间 尺寸 会 急剧 
减 小 ， 这 会 丢失 很 多 信息 ， 导 臻 学习 效果 降低 ， 因 此 在 实践 中 ,5 不 
会 超过 2。 深 度 d2 和 常规 神经 网 络 的 隐 含 层 的 宽度 超 参数 类 似 , 增 大 
d2, 学 习 容量 增 大 , 但 运算 量 也 增加 。 确定 最 优 a2 没有 理论 方法 , Sc 
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践 中 采用 试 错 法 ,输出 特征 图 的 深度 一 般 大 于 等 于 输入 特征 图 的 深度 ， 
因为 输出 特征 图 的 空间 尺寸 可 能 会 变 小 ， 这 样 单个 神经 元 观察 到 的 局 
部 区 域 会 变 大 ， 所 以 需要 提取 更 多 的 特征 。 


最 后 ， 卷 积 层 操作 用 数学 公式 表示 为 : 


k=dl m=F/2,n=F/2 


g(i, j) = bias + > ` f, +m, j' - n)h, (m, n) (4.2) 


k-l m--F/2,n--F!2 


其 中 8GC 旋 是 输出 特征 图 的 一 个 元 素 , 需 以 步 长 5 遍历 整个 输入 特征 图 : 


isile5.14285 
j 21145,1428, 


4.2.3 PESA f 


口 输入 3D 特征 图 的 尺寸 为 Hl x Wl x DI 
口 3 个 超 参数 : 
m 卷 积 核 组 的 数量 K 
m 卷 积 核 的 空间 尺寸 下 
ma 步 长 S 
a 零 填充 数量 P= (F-1)//2 
a 输出 3D 特征 图 的 尺寸 为 B2 x W2x D2, 其 中 : 
a H2=(H1-F+2P)/S+1 


u W2=(W1-F+2P)//S+1 
m D2=K 

OQ 卷 积 层 一 共有 KxFxFxDI T BORRI KA 
"ÉL EHIEF-3,S-1xk F-lLS-l. 


Ær 
ni 
is 
E 
i 
E 
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4.2.4 用 连接 的 观点 看 卷 积 层 

4.1 节 指 出 局 部 连接 和 参数 共享 是 卷 积 网 络 的 核心 概念 ,这 显著 区 
别 于 常规 神经 网 络 , 因 为 常规 神经 网 络 采用 全 连接 并 且 参 数 各 不 相同 。 
现在 看 看 卷 积 运算 如 何 实现 局 部 连接 和 参数 共享 。 


输入 和 输出 3D 特征 图 中 的 每 个 元 素 称 为 神经 元 。 根据 上 节 内 容 ， 
仔细 分 析 输 出 神经 元 的 激活 值 是 怎么 计算 出 来 的 ”你 会 发 现 : 输出 
神经 元 只 观察 输入 神经 元 中 的 一 小 部 分 ， 即 空间 尺度 上 只 观察 卷 积 核 
内 的 神经 元 ， 这 就 是 局 部 连接 ， 卷 积 核 的 空间 大 小 也 叫 感受 野 。 同 一 
特征 图 的 所 有 神经 元 使 用 相同 的 卷 积 核 扫描 输入 3D 特征 图 ， 即 参数 


共享 。 


1. 局 部 连接 


空间 维度 〈 高 度 和 宽度 ) 与 深度 维度 的 连接 方式 是 不 同 的 : 前 者 
是 局 部 的 ， 后 者 是 全 连接 。 深 度 上 为 什么 是 全 连接 ? 这 是 因为 深度 方 
向 的 神经 元 可 以 看 作 在 空间 位 置 处 提取 的 特征 ， 往 往 需要 利用 所 有 特 
征 进行 信息 加 工 。 这 种 全 连接 方式 是 目前 的 主流 做 法 。 


CIFAR-10 图 像 的 输入 特征 图 的 尺寸 为 32 x 32 x3， 如 果 卷 积 核 尺 
寸 是 5x5, 那么 卷 积 层 中 每 个 神经 元 连接 输入 特征 图 中 5 x 5 x 3 的 局 
部 区 域 ， 共 5x5x3=75 个 权重 。 


输入 特征 图 的 尺寸 是 14 x 14 x 128， 如 果 卷 积 核 尺 寸 是 1x 1， 那 
么 卷 积 层 中 每 个 神经 元 和 输入 特征 图 有 1 x 1 x 128 = 128 个 连接 。 


输入 特征 图 的 尺寸 是 7x7x256， 卷 积 核 尺 寸 是 7x7， 那 么 卷 积 
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层 中 每 个 神经 元 和 输入 特征 图 有 7 x 7x256 = 12 544 个 连接 。 注 意 ， 
此 时 卷 积 核 尺 寸 和 输入 特征 图 空间 尺寸 一 致 ， 所 以 此 局 部 连接 就 是 全 
连接 。 


需要 说 明 的 是 ，1 x 1 卷 积 比较 迷惑 人 , 特别 是 对 于 有 信号 处 理 专 
业 背 景 的 人 。 对 于 二 维 信号 ，1 x 1 卷 积 没有 任何 意义 ， 卷 积 网 络 特征 
图 是 三 维 , 虽然 空间 维度 上 1 x 1 卷 积 没有 意义 , 但 深度 方向 卷 积 有 意 
义 。 比 如 ， 输 入 是 彩色 图 像 32x32x3, 那么 1 x 1 卷 积 就 是 进行 三 维 
点 积 。 这 个 卷 积 在 图 像 处 理 中 有 重要 应 用 ， 比 如 彩色 图 像 转换 为 灰 度 
图 像 就 是 1 x 1 卷 积 ， 公 式 为 Gray =R x 0.299 + G x 0.587 +B x 0.114, 
HERAA BEMIER PERS, SERT AKE ERRA. 3H 
要 的 是 ， 权 重 和 阔 值 是 根据 特定 任务 的 训练 集 学 习 出 来 的 ， 可 能 会 优 
于 公式 中 的 权重 取 值 。 公 式 的 权重 是 综合 各 种 情况 给 出 的 最 普遍 的 数 
值 ， 没 有 针对 特定 任务 进行 优化 。 


卷 积 网 络 这 种 局 部 连接 方式 ， 与 常规 神经 网 络 的 全 连接 方式 完全 
不 同 , 但 是 可 以 看 作 全 连接 方式 的 限制 版 本 。 局 部 连接 可 以 看 作 全 连 
接 ， 只 是 把 卷 积 核 窗 口外 的 权重 参数 都 设置 为 0。 权 重 参数 原本 应 该 
根据 优化 算法 来 进行 调整 ， 不 能 人 为 设置 为 0, 但 是 根据 图 像 的 先 验 
知识 ( 特征 局 部 性 ), 我 们 将 它 设 置 为 0。 这 就 是 本 书 第 1 章 讲 的 模型 
里 面 要 融入 先 验 知识 ， 这 样 可 以 提升 模型 的 性 能 。 


卷 积 网 络 这 种 局 部 连接 方式 ， 从 特征 提取 的 角度 来 看 ， 就 是 输出 
神经 元 只 根据 局 部 窗口 内 的 数据 进行 特征 提取 ， 同 时 利用 深度 维度 上 
所 有 的 数据 ， 与 窗口 外 的 数据 无 关 。 需 强调 的 是 ， 输 出 3D 特征 图 中 
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同一 空间 位 置 处 的 次 度 维度 上 的 所 有 神经 元 ， 所 观察 的 局 部 数据 是 一 
样 的 ， 所 以 采用 的 卷 积 核 必须 不 同 ， 和 否则 提取 的 将 是 相同 的 特征 。 这 
也 可 以 看 作 局 部 窗口 的 数据 通过 卷 积 运算 和 非 线性 激活 提取 了 多 个 特 
征 。 所 以 3D 特征 图 [H x W x D] 可 以 看 作 每 个 空间 位 置 的 元 素 有 DD 个 
特征 。 比 如 彩色 图 像 每 个 空间 位 置 像 素 有 RR、G 和 也 这 3 个 特征 。 这 
种 观点 是 后 面 高 效 程序 实现 的 基础 。 


同一 特征 图 的 所 有 神经 元 使 用 相同 的 卷 积 核 扫描 输入 3D 特征 图 ， 
即 参数 共享 ， 能 极 大 减 小 参数 的 数量 。 前 面 提 到 过 ，CIFAR-10 图 像 的 
输入 特征 图 尺寸 为 32 x 32 x 3， 如 果 卷 积 核 尺 寸 是 5Sx 5， 那 么 卷 积 层 
中 每 个 神经 元 连接 输入 特征 图 中 5 x 5 x 3 的 局 部 区 域 , 共 5 x5x3=75 
个 权重 。 如 果 采 用 步 长 S$ = 1， 则 输出 有 32 x 32 = 1024 个 神经 元 ， 如 
果 每 个 神经 元 参数 都 不 同 ， 则 总 共 需 要 75 x 1024=76 800 个 权重 ， 仅 
一 个 特征 图 就 需要 这 么 多 参数 ， 而 输出 会 有 多 个 特征 图 ， 因 此 参数 的 
数目 是 非常 大 的 。 


参数 共享 使 特征 图 上 的 每 个 神经 元 都 使 用 相同 的 权重 。 在 上 面 的 
例子 中 , 一 个 特征 图 只 需 75 个 权重 , 极 大 地 减 小 了 参数 的 数量 。 由 于 
采用 参数 共享 原则 , 卷 积 网 络 获 得 了 良好 的 平移 不 变性 , 即 图 像 中 如 果 
有 人 脸 , 不 管 人 脸 在 图 像 的 什么 位 置 , 卷 积 网 络 都 能 一 致 地 识别 出 来 。 


由 于 采用 了 参数 共享 ， 每 个 特征 图 都 可 以 看 作 只 提取 了 一 种 特征 。 
为 了 提高 网 络 的 学 习 容 量 ， 需 提取 多 种 特征 ， 输 出 3D 特征 图 的 深度 
维度 一 般 比 较 大 。 
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参数 共享 是 为 了 解决 图 像 的 平移 不 变性 提出 的 ， 如 果 图 像 不 具有 
平移 不 变性 ， 则 参数 共享 就 没有 意义 ,不 同位 置 的 神经 元 应 该 采用 不 
同 的 权重 来 学 习 不 同 的 特征 。 比 如 对 准 后 的 人 脸 图 像 ， 人 脸 一 般 都 处 
于 图 像 中 心 , 有 眼睛、 嘴巴 等 特征 的 位 置 比较 固定 ， 此 时 为 了 识别 身份 ， 
就 可 以 不 使 用 参数 共享 ， 而 只 用 局 部 连接 。 


参数 共享 的 一 个 缺点 就 是 相 邻 神经 元 信息 高 度 宛 余 ， 因 为 它们 所 
观察 的 输入 局 部 窗口 是 相 邻 的 。 图 像 有 个 特点 ， 那 就 是 相 邻 像素 的 值 
比较 接近 ， 特 别 是 在 平滑 区 域 ， 所 以 这 些 局 部 窗口 的 像素 很 相似 而 神 
经 元 采用 相同 的 权重 ， 内 积 计算 出 的 激活 值 几 乎 相等 ， 这 样 相 邻 神经 
元 信息 几乎 相同 ， 只 能 提供 十 分 有 限 的 额外 信息 。 神 经 元 信息 元 余 对 
于 网 络 前 几 层 特别 明显 ， 后 面 层 由 于 经 过 多 次 非 线性 激活 ， 宛 余 不 大 
明显 。 


除了 平移 和 旋转 不 变性 外 ， 图 像 还 有 尺度 不 变性 ， 即 人 脸 放 大 或 
缩小 后 ， 虽 然 分 辨 率 不 同 了 ,但 是 理想 的 人 脸 识 别 算法 仍 应 该 识别 出 
人 脸 。 卷 积 运 算是 计算 局 部 窗口 和 卷 积 核 的 内 积 ， 卷 积 核 尺 寸 是 固定 
的 ,不 会 随 人 脸 大 小 的 变化 而 变化 。 这 样 ， 人 脸 大 小 不 同时 ,计算 的 
内 积 是 不 一 样 的 ， 所 以 神经 元 激活 值 不 同 ， 导 致 卷 积 网 络 对 人 脸 尺 十 
敏感 。 因 此 ， 卷 积 网 络 在 物体 尺寸 变化 比较 小 时 ， 效 果 很 好 ， 变 化 较 
大 时 ， 效 果 不 好 。 


4.2.5 ”使 用 矩阵 乘法 实现 卷 积 层 运算 


卷 积 层 的 基本 运算 是 卷 积 核 组 和 输入 特征 图 的 局 部 区 域 做 内 积 ， 
即 把 卷 积 核 组 和 输入 特征 图 的 局 部 区 域 均 拉 伸 为 向 量 ， 然 后 对 这 两 个 
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向 量 做 内 积 运 算 。 和 矩阵 乘法 也 是 两 个 向 量 做 内 积 ， 因 此 ， 如 果 把 输入 
特征 图 和 所 有 卷 积 核 组 分 别 转化 为 矩阵 ， 则 卷 积 层 的 运算 就 变 成 两 个 
巨大 和 矩阵 的 乘法 。 


(1) 将 输入 3D 特征 图 转化 为 矩阵 X: 每 个 局 部 区 域 均 拉 伸 为 行 向 
量 。 比 如 ， 输 入 特征 图 是 227 x 227 x 3， 要 与 尺寸 为 11 x 11 x 3 的 卷 
积 核 以 步 长 为 4 进行 卷 积 ， 则 首先 取 局 部 区 域 11 x 11 x 3 数据 块 ， 将 
其 拉 伸 为 11 x 11 x 3=363 的 行 向 量 。 接 着 , 扫描 每 一 个 局 部 区 域 , 均 
拉 伸 为 行 向 量 。 因 为 步 长 为 4, 不 使 用 0 填充 ， 所 以 输出 的 宽 高 》 
(227-11)/441 —55, 共有 55 x 55 =3025 个 行 向 量 ， 因 此 输出 矩阵 的 尺 
寸 是 3025 x 363。 注 意 ， 由 于 局 部 区 域 有 重 释 ， 输 入 特征 图 中 的 元 素 
在 输出 矩阵 不 同 的 行 中 有 重复 。 


(2) 卷 积 核 组 转化 为 矩阵 W: 卷 积 核 组 拉 伸 成 列 向 量 。 例 如 ， 尺 
寸 为 11 x 11 x3 的 卷 积 核 组 拉 伸 为 11 x 11x 3=363 的 列 向 量 , 如 果 输 
出 特征 图 的 深度 是 96, WA 96 个 列 向 量 ， 就 生成 一 个 矩阵 W, KR 
为 363 x 96。 


(3) 现在 卷 积 层 操作 和 和 矩 阵 乘 法 np.dot(X, W) 是 等 价 的 ， 即 得 到 每 
个 卷 积 核 组 和 每 个 局 部 区 域 数据 的 内 积 。 在 本 例 中 , 输出 矩阵 是 [3025 
x 90]。 


(4) 矩阵 重新 变 为 输出 3D 特征 图 的 尺寸 55x55x96, TIE 
输出 3D 特征 图 的 一 个 深度 向 量 , 或 每 列 就 是 输出 3D 特征 图 的 一 个 特 
征 图 。 


这 个 方法 的 缺点 是 占用 内 存 较 多 ， 因 为 输入 特征 图 中 的 元 素 在 
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X 中 会 被 复制 很 多 次 ， 优 点 是 和 矩阵 乘法 实现 起 来 非常 高 效 (常用 的 
BLAS API )。 


4.4 展示 了 使 用 矩阵 乘法 实现 卷 积 层 运算 的 示意 图 , 输入 3D 特 
征 图 是 3x3 x3， 卷 积 核 组 是 2x2x3， 步 长 S=1，0 填 充 P=0， 卷 
积 核 组 的 数量 K= 2， 故 输出 是 2x2 x2。 输 入 3D 特征 图 的 每 个 局 部 
区 域 2x2x3 数据 均 拉 伸 为 行 向 量 [1 x 12], 总 共有 4 个 局 部 区 域 , 得 
JERE X = [Ax 12]。 每 个 卷 积 核 组 拉 伸 为 列 向 量 [12 x 1]， 有 两 个 卷 积 
核 组 ， 得 矩阵 W= [12 x2]， 然 后 进行 矩阵 乘法 X， 得 到 输出 矩阵 
[4 x 2]， 每 行 就 是 一 个 深度 向 量 ， 转 变 为 输出 3D 特征 图 2x2x2。 


oo ss 
=w E 


se 
Du 


图 4.4 使 用 矩阵 乘法 实现 卷 积 层 运算 的 示意 图 


4.2.6 ”批量 数据 的 卷 积 层 矩 阵 乘法 的 代码 实现 

为 了 高 效 利 用 和 矩阵 乘法 ， 一 般 会 批量 进行 图 像 的 卷 积 运算 。 令 批 
量 为 B, 输入 数据 就 是 4D 数据 [Bx Hx Wx D]。 每 个 3D 特征 图 都 转 
变 为 二 维 大 和 矩阵, 然后 按 行 堆 芭 在 一 起 , 形成 一 个 超级 大 和 矩阵。 本 例 中 ， 
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如 果 有 B= 10 个 输入 特征 图 ， 则 超级 大 和 矩阵 站 的 尺寸 是 30 250 x 363。 
第 (2) 步 和 第 (3) 步 不 变 , 第 (4) 步 要 变 为 4D 输出 数据 10 x 55 x 55 x 96。 


算法 的 核心 是 实现 4.2.5 节 所 述 方法 的 第 (0) 步 ， 把 局 部 窗口 数据 
拉 伸 为 行 向 量 ， 然 后 遍历 每 个 特征 图 的 每 一 个 局 部 窗口 ， 使 这 些 行 向 
量 按 行 堆 和 到 在 一 起 即 可 。 代 码 如 下 : 


filter size = 3 
filter size2 - filter size*filter size 


stride - 1 
®© padding = (filter size -1)//2 
(batch, in height, in width, in depth) - (8, 32, 48, 16) 
© in data = np.random.randn(batch, in height, in width, 
in, depth) 


out height = (in height - filter size + 2*padding)//stride + 1 


© © 


out width = (in width - filter size + 2*padding)//stride + 1 
out size - out height*out width 


©  matric data = np.zeros( (out. size*batch, 
filter size2*in depth) ) 


(8 | padding data = np.zeros((batch, in height + 2*padding, 
in width + 2*padding, in depth) ) 
padding data[:, padding : -padding, padding : -padding, :] - 


in data 
() height ef = padding data.shape[1] - filter size + 1 
width ef = padding data.shape[2] - filter size + 1 
(9) for i batch in range (batch): 
i batch size - i batch*out size 
D for i h, i height in zip(range(out height), 

range(0, height ef, stride)): 

2 i height size = i batch size + i h*out, width 
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® for i w, i width in zip(range(out, width), range(0, 
width ef, stride)):matric data[i height size + 
i w, :] = padding. data[i. batch, 
i height : i height + filter size, 
i width : i width + filter size, :].ravel() 


先 设置 算法 超 参 数 : 卷 积 核 尺寸 filter size HUP strides 
语句 CD 计算 0 填充 padding; 语句 © 随机 生成 4D 的 输入 特征 图 ; 
语句 QD 和 语句 四 计算 输出 特征 图 的 高 度 和 宽度 ; 语句 @) 分 配 输出 大 
和 矩阵 的 存储 空间 ， 注 意 行 数量 为 out size*batch; 语句 © 进行 0 
填充 ; 语句 CO 和 语句 O 计算 卷 积 运 算 以 步 长 stride 滑动 时 ， 在 输 
入 数据 体 上 最 大 能 滑动 到 的 位 置 ; 语句 @ 遍历 每 个 输入 3D 特征 图 ; 
语句 @ 计算 第 1i_batch 个 3D 特征 图 的 首 个 局 部 窗口 数据 的 行 位 置 ; 
语句 @ 遍历 每 一 行 ; 语句 @ 计算 第 i_h 行 首 个 局 部 窗口 数据 的 行 位 
置 ; 语句 O 遍历 每 一 列 ; 语句 5 获取 局 部 窗口 数据 ， 并 使 用 ravel 
方法 将 其 拉 伸 为 1D 向 量 ， 赋 值 给 对 应 的 行 。 


第 (2) 步 , 卷 积 核 组 拉 伸 为 列 向 量 。 实际 上 并 不 需要 事先 生成 四 维 
的 卷 积 核 ， 直 接生 成 二 维 卷 积 核 矩 阵 即 可 ， 代 码 如 下 : 


out depth = 32 

weights - 0.01 * np.random.randn(filter size2*in depth, 
out depth) 

bias = np.zeros((1, out depth)) 


这 里 设置 超 参 数 out depth, 生成 小 的 随机 数 初始 化 权重 和 矩阵。 注意 
和 矩阵 有 out depth 列 。 偏 置 初始 化 为 0。 


第 (3) 2b, 4BIAJHSIERI ReLU 非 线性 激活 ， 代 码 如 下 : 


filter data = np.dot(matric data, weights) + bias # J 4&4 
filter data = np.maximum(0, filter data) 4 ReLU 激活 
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第 (4) 步 , 把 filter data 的 每 一 行 数据 转变 为 输出 AD 特征 图 


对 应 位 置 的 深度 维度 的 数据 。 代 码 如 下 : 


out data = np.zeros((batch, out height, out width, out depth)) 


for i batch in range(batch): 
i batch size - i batch*out size 
for i height in range(out height): 
i height size = i batch size + i height*out width 
for i width in range(out width): 
out data[i batch, i height, i width, :] - 
filter data[i height size + i width, :] 


语句 CD 分 配 输出 AD 特征 图 的 存储 空间 ; 语句 QD 遍历 每 个 输出 


3D 特征 图 ; 语句 @@ HESS i batch 个 3D 特征 图 的 首 行 位 置 ; 语句 
(D 遍历 每 一 行 ; 语句 @ 计算 第 i_heignt 行 的 首 行 位 置 ; 语句 O 遍 
历 每 一 列 ; 语句 @ 把 £ilter data 对 应 的 行 向 量 赋值 给 输出 AD 特 


征 图 对 应 的 深度 维度 。 


需要 特别 强调 的 是 , 第 (3) 步 运算 和 常规 的 神经 网 络 是 一 致 的 , 先 


进行 矩阵 相 乘 ， 然 后 进行 非 线性 激活 ， 只 是 由 于 输入 和 输出 是 3D 特 
征 图 ， 需 要 对 特征 图 进行 形状 的 转换 。 


本 书后 面 解释 CNN 结构 时 , 把 非 线 性 激活 层 ReLU 包含 在 卷 积 层 


里 面 , 不 单独 作为 一 层 。 整 个 程序 结构 清晰 ,逻辑 简单 ， 可 读 性 很 强 ， 


程序 


运行 效率 高 ,希望 读者 仔细 研读 。 我 建议 读者 先 理解 NumPy 中 


array 多 维 数组 的 存储 模式 。array 中 元 素 存 储 模式 是 先 存 储 最 后 维度 的 
数据 ， 然 后 依次 存储 前 一 维度 的 数据 ， 最 后 存储 第 一 个 维度 数据 。 对 
于 读者 熟悉 的 2D 数据 data = np.random.rangn (h,w) ， 先 存储 第 
二 维度 的 数据 ， 也 就 是 先 存储 行 数据 ( 每 行 数据 有 w 个 元 素 )， 一 行 
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一 行 地 依次 存储 。 对 于 本 程序 中 的 AD 特征 图 ， 读 者 很 少 用 ， 但 其 存 
储 模式 和 2D Æ, data = np.randqdom.randn(b，h，w，gq) 是 以 
第 四 维度 的 数据 (有 4 个 元 素 ) 为 存储 单位 的 , 依次 存储 这 4d 个 元 素 。 
如 果 这 4 个 元 素 存储 了 次， 就 相当 于 存储 完 第 三 维 数据 。 如 果 这 d 
个 元 素 存储 了 wxh 次 ， 就 相当 于 存储 完 第 二 维 数据 ， 等 等 。 为 了 快 
速 读 取 数据 , 数据 存储 地 址 最 好 连 在 一 起 , 所 以 array 数组 最 好 是 依次 
读 取 最 后 维度 的 数据 ， 不 要 依次 读 取 其 他 维度 的 数据 。 例 如 : 


import time 


h = 1000 
w= 1000 
weights = np.random.randn(h, w) 


data = np.random.randn(w) 
# 2.4ms 
t1 - time.clock() 
for i in range(h): 
data += weights[i,:] 
t2 - time.clock() 
print('run time(ms):', 1000*(t2 - t1) ) 


data = np.random.randn(h) 
4 6.0ms 
t1 - time.clock() 
for i in range(w): 
data += weights[:,i] 
t2 - time.clock() 
print('run time(ms):', 1000*(t2 - t1) ) 


可 以 看 出 , 两 个 程序 块 的 数据 吞吐 量 一 样 , 速度 却 相 差 两 倍 以 上 ， 
每 次 读 取 行 的 程序 比 读 取 列 的 程序 快 很 多 ， 因 为 行 数据 块 的 存储 地 址 
连续 的 ， 而 列 数据 块 的 地 址 是 断 续 的 。 根 据 这 个 原理 和 卷 积 网 络 的 
部 连接 性 质 , AD 数据 的 维度 需 定义 为 : data = np.random.randn 


nu 


am 
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(batch, height, width，depth)。 需 要 注意 的 是 ， 最 后 维度 是 深 
度 ， 第 一 维度 是 批量 。 程 序 依 次 读 取 深度 维 数据 ， 即 最 后 一 个 维度 的 
数据 ， 以 达到 加 速 目的 。 


4.3” 池 化 层 


通常 ， 卷 积 层 的 超 参数 设置 为 : 输出 特征 图 的 空间 尺寸 等 于 输入 
特征 图 的 空间 尺寸 。 这 样 如 果 卷 积 网 络 里 面 只 有 卷 积 层 ， 特 征 图 空间 
尺寸 就 永远 不 变 。 虽 然 卷 积 层 的 超 参 数 数量 与 特征 图 空间 尺寸 无 关 ， 
但 这 样 会 带 来 一 些 缺 点 。 


(1) 空间 尺寸 不 变 ， 卷 积 层 的 运算 量 会 一 直 很 大 ， 非 常 消耗 资源 。 


(2) 卷 积 网 络 结构 最 后 是 通过 全 连接 层 输 出 分 值 向 量 的 ， 如 果 空 
间 尺 寸 一 直 不 变 ， 则 全 连接 层 的 权重 数量 会 非常 巨大 ， 导 至 过 拟 合 。 


(3) 前 面 几 层 的 卷 积 层 的 输出 存在 大 量 匈 余 ， 如 果 空 间 尺寸 不 
变 ， 则 宛 余 会 一 直 存在 ， 因 此 需要 一 种 技巧 来 减 小 空间 尺寸 。 


4.3.4 概述 


池 化 是 一 种 最 常用 的 减 小 空间 尺寸 的 技巧 ， 它 可 以 对 输入 的 每 一 
个 特征 图 独立 地 降低 其 空间 尺寸 ， 而 保持 深度 维度 不 变 。 首 先 对 特征 
图 的 每 个 局 部 窗口 数据 进行 融合 ， 得 到 一 个 输出 数据 ， 然 后 采用 大 于 
1 的 步 长 扫描 特征 图 。 最 常见 的 局 部 窗口 尺寸 是 2x2， 有 时 也 会 采用 
3 x3, 步 长 是 2 会 去 除 75% 的 神经 元 , 步 长 如 果 采 用 3, 则 会 去 除 88.89% 
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的 神经 元 ， 这 过 于 剧烈 ， 实 践 中 不 会 采用 。 由 于 池 化 操作 会 去 除 大 量 
的 神经 元 ， 所 以 可 以 看 作 一 种 提纯 操作 。 对 局 部 窗口 数据 进行 融合 ， 
最 常 使 用 的 是 MAX 操作 ， 即 选取 局 部 窗口 数据 的 最 大 值 。 当 然 ， 也 
可 以 采用 取 平 均值 操作 , 但 不 常用 。 图 4.5 展示 了 池 化 层 操作 示意 图 ， 
输入 特征 图 尺寸 4x4 x3 被 降 采 样 到 了 2x2x3, 采取 的 滤波 器 尺寸 
是 2， 步 长 为 2。 采 用 最 大 值 池 化 ，2 x 2 的 局 部 区 域 选取 最 大 值 。 


13 11 832| , CREER 
pe 41 16| ” 池 化 后 的 特征 图 
最 大 值 池 化 ， 池 
化 窗口 为 2x2， 
137 1011 8 6 2132 步 长 为 2 
7345 1 2 130 iy 
12 21 175 41 127 12 输入 特征 图 
8364 3 31168 
图 4.5 池 化 层 操作 示意 图 


为 什么 采用 最 大 值 进 行 池 化 操作 ? 这 是 因为 卷 积 层 后 接 ReLU 激 
活 ，ReLU 激 活 函数 把 负 值 都 变 为 0, 正 值 不 变 , 所 以 神经 元 的 激活 值 
越 大 ， 说 明 该 神经 元 对 输入 局 部 窗口 数据 的 反应 越 激 烈 ， 提 取 的 特征 
越 好 。 用 最 大 值 代表 局 部 窗口 的 所 有 神经 元 ， 是 很 合理 的 。 最 大 值 
操作 还 能 保持 图 像 的 平移 不 变性 ， 同 时 适应 图 像 的 微小 变形 和 小 角度 
旋转 。 


最 后 强调 , 池 化 只 减 小 空间 维度 尺寸 , 深度 维度 的 尺寸 保持 不 变 。 
如 前 所 述 ， 深 度 维度 的 尺寸 可 以 看 作 空 间 位 置 处 神经 元 提取 的 特征 数 
量 。 随 着 空间 尺寸 的 减 小 ， 神 经 元 的 感受 野 越 来 越 大 ， 即 神经 元 观察 
到 的 局 部 区 域 越 来 越 大 ， 所 以 需要 提取 更 多 的 特征 ， 故 深度 维度 一 般 
会 随 着 空间 尺寸 的 减 小 而 增 大 。 
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下 面 简要 介绍 池 化 层 的 一 些 参 数 。 


O 输入 特征 图 的 尺寸 为 Hl x W1 x DI 
口 2 个 超 参数 : 
m 滤波 器 的 空间 尺寸 忆 
四 步 长 $ 
口 输出 特征 图 的 尺寸 为 82 x W2 x D2， 其 中 : 
u H2 - (Hl - Fy/S*1 
u W2= (Wl— FY//S+1 
m D2-DI 


对 输入 特征 图 进行 固定 的 操作 ， 所 以 没有 可 学 习 的 参数 ; 
中 很 少 使 用 0 填充 。 


池 化 层 


不 使 用 池 化 层 : 如 前 所 述 ， 池 化 层 的 目的 是 减 小 特征 图 的 空间 尺 
T, 卷 积 层 也 可 以 减 小 空间 尺寸 , 即 采 用 步 长 $=2 来 降低 特征 图 的 空 


间 尺 寸 ， 卷 积 层 与 步 长 为 2 的 池 化 操作 一 样 ， 会 去 除 75% KH 


经 元 。 


4.3.2” 池 化 层 代码 实现 


池 化 层 将 每 个 局 部 窗口 的 数据 转化 为 小 矩阵 , 按 行 堆 秋 成 大 矩阵 ， 


然后 每 行 取 最 大 值得 到 大 的 列 向 量 ， 最 后 转化 为 3D 特征 图 。 


(1) 输 入 3D 特征 图 转化 为 矩阵 和 : 局 部 区 域 转化 为 小 矩阵 


。 比 如 ， 


输入 是 56 x 56 x 96, 局 部 窗口 尺寸 为 2x2, 步 长 为 2 进行 池 化 , 取 输 
入 中 的 2x2x96 局 部 数据 块 , 将 其 转化 为 尺寸 为 96 x4 的 小 矩阵 , 注 
意 是 将 96 维 的 深度 向 量 拉 伸 为 一 个 列 向 量 , 共有 4 个 深度 向 量 。 以 步 


长 为 2 扫描 每 一 个 局 部 窗口 ， 所 以 输出 的 宽 高 均 为 (56-2)//2+1 = 28, 
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共有 28 x28=784 个 局 部 窗口 ，784 x 96=75 264 个 行 向 量 , 输出 矩阵 
X RR TEE 75264 x 4。 因 为 局 部 窗口 之 间 没 有 重 又 ,所 以 输入 特征 图 


中 的 元 素 在 不 同 的 行 中 没有 重复 。 


(2) 最 大 值 池 化 : 提取 大 和 矩阵 每 行 的 最 大 值 ，matric_gdata. 
max (axis = 1,keepdims = True), 即 得 到 每 个 局 部 窗口 的 最 大 值 。 


在 本 例 中 ， 这 个 操作 的 输出 是 大 列 向 量 [75 264 x 1]. 


(3) 输出 新 3D 特征 图 28 x 28 x 96， 大 列 向 量 的 每 96 个 元 素 构成 


输出 3D 特征 图 的 一 个 深度 向 量 。 


由 于 池 化 操作 简单 直观 ， 读 者 也 有 卷 积 层 程序 的 基础 ， 因 此 直接 


给 出 批量 数据 池 化 层 的 代码 : 


filter size = 2 
filter size2 = filter size*filter size 


stride - 2 

(batch, in height, in width, in depth) - (8, 32, 48, 16) 

in data - np.random.randn(batch, in height, in width, 
in, depth) 

out height = (in height - filter size)//stride + 1 

out width = (in width - filter size)//stride + 1 


out size - out height*out width 
out, depth - in depth 


out data - np.zeros((batch, out height, out width, out depth)) 


(D matric data = np.zeros( (out size*batch*in depth, 
filter size2) ) 
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height ef = in height - filter size + 1 
width ef = in width - filter size + 1 


for i batch in range(batch): 
Q i batch size - i batch*out size*in depth 
for i h, i height in zip(range(out height), range(0, 
height ef, stride)): 


i height size = i batch size + i h*out width*in depth 


© for i w, i width in zip(range(0, out, width*in, depth, 
in depth), 
range(0, width ef, stride)): 
md = matric data[i height size + i w 


i height size + i w + in depth, : ] 
Src = in data[i batch, i height : i height + 
filter size, 
i width : i width + filter size, :] 
for i in range(filter size): 
for j in range(filter size): 


(6) md[:, i*filter size + j] = src[(i, j, :] 


matric, data max value = matric data.max(axis = 1, 
keepdims - True) 


matric data max pos - matric data -- matric data max value 


for i batch in range(batch): 
i batch size - i batch*out size*out depth 
for i height in range(out height): 
i height size = i batch size + 
i height*out width*out depth 
for i width in range(out width): 
© out, data[i batch, i height, i width, :] = 
matric data max value[ 
i height size + 
i width*out depth 
i height size + 
i width*out depth + 


out, depth].ravel() 
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首先 , 设置 超 参 数 , 随机 生成 输入 AD 特征 图 , 然后 计算 输出 特征 
图 的 维度 ， 分 配 存储 空间 。 语 句 中 是 分 配 大 矩阵 存储 空间 ， 注 意 行 数 
量 的 计算 公式 ， 要 乘 以 in depth; 语句 @ 是 计算 第 i batch 个 3D 
特征 图 的 首 行 位 置 ， 注 意 要 乘 以 in_qepth， 并 且 后 面 所 有 计算 行 位 置 
的 代码 都 需 乘 以 in depth; 语句 @ 遍历 列 , 这 里 也 要 乘 以 in depth; 
语句 O 取出 in deptn 数量 的 行 向 量 ; 语句 @ 获得 输入 特征 图 的 局 
部 窗口 数据 ; 语句 @ 赋值 空间 位 置 C, 7) 的 深度 维度 的 数据 ; 语句 CO 
执行 最 大 值 滤波 ， 注 意 keepdims = True 参数 设置 ， 保 持 和 矩阵 的 维 
EE; 语句 @ 保存 最 大 值 位 置 ， 是 为 了 计算 梯度 的 需要 ; 语句 @ RH 
深度 维度 的 数据 。 理 解 该 程序 的 核心 是 语句 @, 它 把 空间 位 置 (i,]) 处 
的 深度 维度 上 的 indepth 个 数据 作为 一 个 深度 向 量 ， 赋 值 给 大 矩阵 
的 列 。 虽 然 池 化 层 运算 比 卷 积 层 简单 ， 理 解 起 来 也 容易 ， 但 程序 实现 比 


44 全 连接 层 


如 果 卷 积 网 络 输入 是 224 x 224 x 3 的 图 像 ， 经 过 一 系列 的 卷 积 层 
和 池 化 层 C 因为 卷 积 层 增加 深度 维度 , 池 化 层 减 小 空间 尺寸 ), 尺寸 变 
为 7x7x512， 之 后 需要 输出 类 别 分 值 向 量 ， 计 算 损失 函数 。 假 设 类 
别 数量 是 1000 ( ImageNet 是 1000 类 )， 则 分 值 向 量 可 表示 为 特征 图 
1 x 1 x 1000。 如 何 将 7x7x512 的 特征 图 转化 为 1 x 1 x 1000 的 特征 
图 呢 ? 最 常用 的 技巧 是 全 连接 方式 , 即 输出 1 x 1 x 1000 特征 图 的 每 个 
神经 元 ( 共 1000 个 神经 元 ) 与 输入 的 所 有 神经 元 连接 ， 而 不 是 局 部 连 
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接 。 每 个 神经 元 需要 权重 的 数量 为 7x7x512=25 088， 共 有 1000 个 
神经 元 ， 所 以 全 连接 层 的 权重 总 数 为 : 25 088 x 1000 =25 088 000， 参 


数 如 此 之 多 ， 很 容易 造成 过 拟 合 ， 这 是 全 连接 方式 的 主要 缺点 


全 连接 层 的 实现 方式 有 两 种 。 一 种 方式 是 把 输入 3D 特征 


o 


图 拉 伸 


为 1D 向 量 ， 然 后 采用 常规 神经 网 络 的 方法 进行 矩阵 乘法 ; 另 一 种 方式 


4.4.1 全 连接 层 转化 成 卷 积 层 
全 连接 层 和 卷 积 层 中 的 神经 元 都 是 计算 点 积 和 非 线性 激活 


是 把 全 连接 层 转化 成 卷 积 层 , 这 种 方法 更 常用 , 尤其 是 在 物体 检测 中 。 


形式 是 一 样 的 ， 唯 一 的 差别 在 于 卷 积 层 中 的 神经 元 只 与 输入 数据 中 的 
一 个 局 部 区 域 连接 ， 并 且 采 用 参数 共享 ;而 全 连接 层 中 的 神经 元 与 输 
入 数据 中 的 全 部 区 域 都 连接 ， 并 且 参 数 各 不 相同 。 因 此 ， 两 者 是 可 能 


相互 转化 的 。 


口 卷 积 层 转换 为 全 连接 层 : 任意 一 个 卷 积 层 都 能 转换 为 等 价 的 全 
连接 层 。 此 时 连接 整个 输入 空间 的 权重 矩阵 是 一 个 巨大 的 矩 
阵 ， 除 了 某 些 特定 区 域 (局 部 连接 ) 外 ， 其 余 都 是 零 。 不 同 神 


经 元 的 和 矩阵， 其 非 零 区 域 的 元 素 都 是 相等 的 〈 参数 共享 )， 详 


见 4.2.4 节 。 


口 


全 连接 层 转化 为 卷 积 层 : 比如 ， 一 个 全 连接 层 ， 输 入 特征 图 是 


7x7x512， 输 出 特征 图 是 1 x 1 x 1000， 这 个 全 连接 层 可 以 等 
效 为 一 个 卷 积 层 : F-7, P-0, S-1, K-1000. BIENES PUE 


的 尺寸 设置 为 和 输入 特征 图 的 空间 尺寸 一 怪 ， 不 需要 0 


填充 ， 


也 不 需要 滑动 卷 积 窗口 ， 所 以 输出 空间 尺寸 为 1， 只 有 一 个 单 
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独 的 深度 向 量 , 所 以 输出 变 成 1 x 1 x 1000。 全 连接 层 转化 为 卷 
积 层 操作 ， 还 会 带 来 额外 的 好 处 : 可 以 在 一 次 前 向 传播 中 ， 让 


卷 积 网 络 在 一 幅 更 大 的 输入 图 像 中 的 不 同位 置 进行 卷 积 。 


如 果 224 x 224 x 3 的 输入 图 像 经 过 多 次 卷 积 层 和 池 化 层 之 后 得 到 
特征 图 7x7x512, 即 空间 尺寸 缩小 了 32 倍 。 那么 , 384 x 384 x3 的 大 


图 像 经 过 同村 


的 卷 积 层 和 池 化 层 之 后 ， 会 得 到 特 生 


ER] 12 x 12 x 512 


(384/32 = 12 )。 然 后 再 经 过 一 个 全 连接 层 转 化 得 到 的 卷 积 层 ,最终 和 输出 
为 6x6x1000 (ÆR F=7, K S=1 后 空间 尺寸 为 (12-7)ML1+1=6)。 
而 (384-224)/32+1=6， 相 当 于 采用 尺寸 为 f= 224 的 卷 积 核 ， 以 步 长 
S=32， 对 384x384x3 的 图 像 进行 了 6x6=36 次 卷 积 。 


全 连接 层 转换 为 卷 积 层 后 的 卷 积 网 络 只 需 进 行 一 次 前 向 传播 ， 就 
和 36 次 卷 积 的 效果 是 一 样 的 。 相 比 之 下 , 一 次 前 向 传播 计算 要 高 效 得 
多 ， 因 为 共享 了 计算 资源 。 这 一 技巧 在 实践 中 经 常 被 使 用 ， 特 别 是 在 
物体 检测 领域 。 通 常 ， 输 入 一 张 尺寸 大 的 图 像 ， 使 用 变换 后 的 卷 积 区 
络 对 空间 上 很 多 不 同位 置 的 子 图 像 进行 评估 ， 得 到 分 值 向 量 ， 然 后 求 
这 些 分 值 向 量 的 平均 值 。 如 上 , 得 到 6 x 6 x 1000 特征 图 后 , 再 对 每 个 


H 


6 x 6 特征 图 进行 平均 ,得 到 最 终 特征 图 1 x 1 x 1000, 效 果 一 般 会 更 好 。 


上 述 操作 只 能 得 到 步 长 为 32 的 卷 积 效果 ， 如 果 想 用 步 长 小 于 32, 
如 16， 最 终 会 得 到 11 x 11 x 1000 的 输出 ， 因 为 (384-224)W16+1= 11。 
这 一 问题 可 以 采用 两 次 前 向 传播 解决 ， 第 一 次 在 原始 图 像 进 行 卷 积 ， 
得 到 6 x 6 x 1000 的 输出 ; 第 二 次 分 别 沿 宽度 和 高 度 平移 16 个 像素 ， 
得 到 “新 图 像 ”368 x 368 x 3 ， 然 后 在 “新 图 像 ” 上 进行 卷 积 ， 得 到 
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5x5x1000 的 输出 ， 因 为 (368-224)//32+1=5。 两 次 结果 合并 ， 得 到 


11 x11 x 1000, 


4.4.5 ”全 连接 层 代 码 实现 


代码 可 以 直接 采用 4.2.6 节 的 卷 积 代码 ,只 是 超 参 数 固定 为 S$=1， 


忆 =0， 卷 积 核 尺寸 下 一 般 等 于 输入 特征 图 的 空间 尺寸 ,这 样 输出 特征 
图 空间 尺寸 为 1 x 1。 如 果 卷 积 核 尺 寸 小 于 空间 尺寸 ， 则 输出 特征 


FE 图 空 


间 尺 寸 将 大 于 1 x 1。 当 卷 积 核 尺 寸 户 等 于 输入 特征 图 的 空间 尺寸 时 ， 
可 以 采用 把 输入 3D 特征 图 拉 伸 为 1D 数据 的 方式 进行 计算 , 此 时 代码 


如 下 : 


last = 0 
(batch, in height, in width, in depth) = (8, 32, 


in, depth) 


Size - in height * in width * in depth 
matric data - np.zeros( (batch, size) ) 


for i batch in range (batch): 


®© matric_data[i_batch] = in_data[i_batch].ravel() 


out_depth = 32 


weights = 0.01 * np.random.randn (size, out_depth) 
bias = np.zeros((1, out depth)) 


filter data = np.dot(matric data, weights) + bias 


if not last: 


Q out data = np.maximum(0, filter data) 4 ReLU 激活 


, 16) 


in data = np.random.randn(batch, in, height, in width, 
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语句 CD 把 3D 特征 图 拉 伸 为 1D 向量; 语句 @ 进行 非 线性 激活 。 
注意 ， 最 后 一 层 全 连接 层 输出 分 值 ， 不 需要 非 线 性 激活 。 该 程序 除了 
多 了 拉 伸 语句 ， 其 他 代码 和 常规 神经 网 络 代码 一 模 一 样 。 


4.5” 卷 积 网 络 的 结构 


前 面 介绍 了 卷 积 网 络 的 3 种 基本 模块 : 卷 积 层 C CONV )、 池 化 层 
( POOL， 默 认 最 大 值 池 化 ) 和 全 连接 层 ( FC )。 卷 积 层 和 全 连接 层 后 
面 都 需 紧 接 ReLU 激活 层 ， 为 了 简化 书写 ， 省 略 此 层 。 但 必须 注意 的 
是 ， 最 后 一 个 全 连接 层 后面 不 需 接 ReLU 激活 层 。 那 么 ， 如 何 通过 这 
些 模块 组 织 成 卷 积 网 络 呢 ? 


4.5.4 层 的 组 合 模式 


卷 积 网 络 最 基本 的 结构 是 : 先 堆 和 琶 一 个 或 多 个 卷 积 层 进行 特征 提 
取 ， 然 后 接 一 个 池 化 层 进行 空间 尺寸 缩小 ， 之 后 重复 此 模式 ， 直 到 空 
间 尺 寸 足 够 小 (如 7x7 和 5x5)， 最 后 接 多 个 全 连接 层 ， 其 中 最 后 一 
个 全 连接 层 输 出 类 别 分 值 。 


例如 ， 下 面 是 一 些 常见 的 网 络 结构 。INPUT 一 [CONV POOL] x 
3 一 FC 一 FC: 每 个 卷 积 层 之 后 紧 跟 一 个 池 化 层 , 重复 了 3 次 。INPUT 一 
[CONV x2 一 POOL]x3 一 FCx2 一 FC: 每 2 个 卷 积 层 之 后 有 一 个 池 
化 层 , 堆 羡 多 个 卷 积 层 可 以 学 习 到 更 丰富 的 特征 。 INPUT 一 [CONV 一 
POOL] — [CONV x 2 2 POOL] x2— [CONV x 5 2 POOL]x2—FCx 
2— FC: WEEKK a 62 WAITER, mR, — 
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卷 积 层 后 立即 池 化 ， 最 后 是 5 个 卷 积 层 才 池 化 一 次 。 因 为 随 着 特征 图 
空间 尺寸 的 减 小 ， 神 经 元 的 感受 野 越 来 越 大 ， 提 取 的 特征 更 具有 全 局 
性 ， 需 要 提取 更 复杂 的 关系 ， 所 以 需要 更 多 的 卷 积 层 。 这 种 结构 现在 
十 分 流行 。 


输入 图 像 的 空间 尺寸 常用 的 是 32( CIFAR-10 )、64、96( STL-10 小 
224 ( ImageNet )、384 和 512， 这 些 尺 寸 能 被 2 整除 很 多 次 。 


卷 积 层 使 用 小 尺寸 卷 积 核 (3 x 3 )， 步 长 9 = 1， 如 果 必 须 使 用 大 
的 卷 积 核 (5 x 5 或 者 7x7 )， 通 常 只 用 在 第 一 个 卷 积 层 中 ， 其 输入 是 
原始 图 像 ， 且 仅 使 用 一 次 。 


池 化 层 对 特征 图 进行 空间 降 采 样 ,最 常用 的 是 x 2 感受 野 的 最 大 
值 池 化 ， 步 长 为 2， 男 一 个 不 常用 的 是 3 x 3 感受 野 ， 步 长 为 2。 


为 什么 使 用 步 长 S = 1 的 卷 积 层 ? 实践 表明 小 步 长 的 效果 更 好 。 
步 长 为 1 的 卷 积 层 不 改变 输入 特征 图 的 空间 维度 ， 只 对 深度 维度 进行 


变换 。 


为 何 卷 积 层 使 用 零 填充 ? 因为 对 特征 图 进行 零 填 充 ， 不 会 改变 输 
入 特征 图 的 空间 尺寸 , P= (F- 1D)W2。 如 果 不 进行 零 填 充 ， 每 次 卷 积 后 
村 征 图 的 尺寸 就 会 减 小 2, 那么 特征 图 边缘 的 信息 就 会 过 快 地 损失 掉 ， 
特别 是 堆 秋 很 多 个 卷 积 层 的 时 候 。 


为 什么 要 堆 释 多 个 卷 积 层 ， 而 不 直接 用 一 个 卷 积 核 尺 寸 大 的 卷 积 
层 ? 假设 一 层 一 层 地 堆 秋 了 3 个 3 x 3 的 卷 积 层 , 第 一 个 卷 积 层 中 的 每 
个 神经 元 对 输入 特征 图 有 3 x 3 的 感受 野 , 第 二 个 卷 积 层 上 的 神经 元 对 
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第 一 个 卷 积 层 有 3 x 3 的 感受 野 ， 即 对 输入 特征 图 有 5 x 5 的 感受 野 ， 

同样 ， 第 三 个 卷 积 层 上 的 神经 元 对 第 二 个 卷 积 层 有 3 x 3 的 感受 野 ， 即 
对 输入 特征 图 有 7x 7 的 感受 野 。 假 设 不 采用 堆 琶 3 个 3 x 3 的 卷 积 层 ， 
而 是 使 用 一 个 单独 的 7x 7 的 感受 野 的 卷 积 层 ， 那么 所 有 神经 元 的 感受 
野 也 是 7x7, 但 这 样 有 一 些 缺 点 首先， 多 个 卷 积 层 与 非 线性 激活 层 
的 交替 结构 ， 比 单一 的 卷 积 层 结构 提取 的 特征 更 富有 表现 力 ; 其 次 ， 

假设 输入 输出 的 特征 图 的 深度 维度 都 是 C， 那 么 单独 的 7x7 卷 积 层 包 
含 Cx(7x7)xC= 49C 个 权重 , 而 3 个 3x3 的 卷 积 层 只 有 3 x (Cx 
(3x3)xO)=27C 个 权重 。 MEE A3 x 3 的 卷 积 层 缺点 是 : 在 进行 误差 
反 向 传播 时 ,需要 存储 中 间 每 个 卷 积 层 的 激活 值 , 这 会 占用 更 多 的 内 存 。 


为 什么 卷 积 网 络 称 为 深度 网 络 ? 这 里 的 深度 是 指 网 络 的 次 度 ， 一 
般 来 说 , 网 络 隐 含 层 大 于 两 层 , 就 能 称 为 深度 网 络 , 也 就 是 深度 学 习 ， 
卷 积 网 络 的 深度 一 般 都 大 于 5 层 ， 其 至 达到 上 千 层 ! 传统 的 机 器 学 习 
方法 可 以 看 作 浅 层 网 络 ， 如 SVM 可 以 看 作 一 个 隐 含 层 的 网 络 ， 深 度 
学 习 之 前 的 神经 网 络 隐 含 层 一 般 不 超过 两 层 。 卷 积 网 络 的 深度 主要 是 
由 图 像 的 多 层次 结构 决定 的 : 网 络 的 前 层 学 习 图 像 的 低层 特征 ， 如 边 
缘 和 纹理 模式 ; 中 间 层 学 习 图 像 的 中 层 视觉 特征 ， 如 眼睛 、 腿 等 物体 
部 件 ; 后 层 网 络 学 习 物 体 整体 概念 ， 最 后 的 全 连接 层 得 到 物体 类 别 。 


卷 积 网 络 最 基本 的 结构 是 将 卷 积 层 、 池 化 层 和 全 连接 层 这 3 层 
进行 简单 的 串联 (VGG 为 其 代表 ), 虽然 结构 清晰 ,容易 掌握 , 但 网 
络 学 习 效 率 不 高 。 谷 歌 的 Inception 结构 和 微软 亚洲 研究 院 的 残 差 
(Residual Net) 结构 ， 虽 然 连接 模式 复杂 ， 但 网 络 参数 更 少 ， 学 习 效 
率 更 高 。 这 三 种 最 经 典 的 结构 ， 本 书后 面 都 有 论述 。 
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4 


.5.2 ”表示 学 习 


可 以 从 男 一 个 角度 来 理解 上 述 卷 积 神经 网 络 。 卷 积 网 络 的 输入 是 


图 像 ， 如 224 x 224 x 3， 经 过 多 个 卷 积 层 和 池 化 层 后 ， 假 设 输出 为 
x7x512, 最 后 接 多 个 全 连接 层 输出 分 值 向 量 。 多 个 全 连接 层 可 以 看 


7 


MERE ERHI 


经 网 络 ， 该 网 络 的 输入 是 7x7x512。 这 样 可 以 把 卷 积 网 络 


全 连接 层 前 的 多 个 卷 积 层 和 池 化 层 看 作 特 征 提 取 需 : 每 层 对 上 一 层 的 


输 
变换 为 与 类 另 


和 出 进行 特 生 


F 变 换 ， 把 与 类 别 无 关 的 低层 表示 224 x 224 x 3 ( 如 图 像 ) 
密切 相关 的 高 层 表示 7x7x 512， 使 得 原来 基于 全 连接 


层 难以 完成 的 任务 成 为 可 能 。 每 层 一 般 是 对 3D 特征 图 的 空间 尺寸 进 


行 减 小 ,深度 尺寸 进行 增加 , 即 从 224 x 224 x3 最 终 变 换 为 7x7x512。 
所 以 卷 积 网 络 也 称 为 “特征 学 习 ” 


i 


域 ， 图 像 领域 著名 的 人 工 特征 有 SIFT, HOG 和 LBP 等 。 卷 积 网 络 通 


或 “表示 学 习 ”。 


深度 学 习 之 前 ， 机 噩 学 习 进 行 模式 分 类 ， 这 个 过 程 需要 专家 提取 
特征 ， 这 称 为 “特征 工程 ”， 见 第 1 章 内 容 。 特 征 的 好 坏 对 模型 的 泛 化 


能 至 关 重 要 ， 专 家 设计 出 好 特 生 


F 十 分 困难 ， 特 别 是 在 图 像 和 声音 领 


过 机 器 学 习 技 术 ， 自 己 从 数据 中 产生 好 特征 ， 把 人 类 从 特征 工程 中 解 
放出 来 ， 大 大 扩展 了 机 器 学 习 的 适用 领域 。 


就 
子 ， 训 练 卷 积 网 络 对 于 文字 的 识别 能 力 ， 如 果 训 练 集 里 面 的 字体 都 是 


机 器 学 习 技术 自身 产生 的 好 特征 是 指针 对 特定 的 训练 集 来 说 的 ， 


对 其 他 训练 集 可 能 不 是 .如 果 该 特征 对 很 多 不 同 的 训练 集 都 是 好 特征 ， 
i 说 明 该 模型 具有 很 强 的 迁移 学 习 能 力 ， 是 十 分 理想 的 模型 。 举 个 例 


能 
能 


宋体 ， 网 络 对 训练 集 取 得 很 好 的 分 类 效果 ， 这 时 就 可 以 认为 模型 学 习 
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出 了 好 特征 。 但 是 该 模型 对 于 行书 字体 的 识别 效果 很 差 ， 说 明 该 模型 
学 习 到 的 特征 对 于 行书 字体 而 言 ， 不 是 好 特征 。 


4.6 ” 卷 积 网 络 的 神经 科学 基础 


生物 学 启发 人 工 智能 最 为 成 功 的 案例 可 能 就 是 卷 积 网 络 ， 卷 积 网 
络 的 一 些 关 键 设计 原则 均 来 自 神 经 科学 。 神 经 生理 学 家 David Hubel 
和 Torsten Wiesel 通过 对 猫 的 视觉 系统 的 多 年 研究 发 现 : 初级 视觉 皮层 
V1 细胞 具有 强烈 的 方向 选择 性 ， 即 对 视野 中 特定 方向 的 条 纹 反 应 强 
烈 ， 而 对 其 他 方向 的 条 纹 几 乎 没有 反应 。 初 级 视觉 皮层 V1 是 大 脑 对 
视觉 输入 开始 执行 显著 高 级 处 理 的 第 一 个 区 域 ， 卷 积 网 络 层 的 设计 借 
鉴 了 V1 的 3 个 性 质 。V1 用 二 维 结构 来 反映 视网膜 的 图 像 结构 。 卷 积 
网 络 通过 用 二 维 映 射 定义 特征 的 方式 来 描述 该 特征 ， 如 3D 特征 图 。 
V1 包含 许多 简单 细胞 , 这 些 细胞 的 活动 在 某 种 程度 上 可 以 概括 为 : 在 
一 个 小 的 空间 位 置 接受 域内 的 图 像 的 线性 函数 。 卷 积 网 络 的 神经 元 设 
计 为 局 部 连接 的 卷 积 运算 。V1 还 包含 许多 复杂 细胞 , 这 些 细胞 响应 类 
似 于 简单 细胞 检测 的 那些 特征 ,但 是 复杂 细胞 对 于 特定 的 位 置 的 微小 
局 移 具有 不 变性 ， 这 启发 了 卷 积 网 络 的 池 化 单元 。 


大 多 数 的 V1 细胞 具有 由 Gabor 函数 所 描述 的 权重 ， 而 Gabor PRI 
数 是 高 斯 函数 和 余弦 函数 的 乘积 。 卷 积 网 络 第 一 层 卷 积 层 学 习 到 的 特 
征 和 Gabor 函数 非常 类 似 。 


可 惜 的 是 ， 神 经 科学 很 难 告诉 我 们 该 如 何 训练 卷 积 网 络 。 
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基于 梯度 下 降 法 的 最 优化 方法 


前 面 几 章 详细 介绍 了 参数 化 的 特征 映射 模型 : 线性 模型 、 神 经 网 
络 和 卷 积 神经 网 络 。 我 们 通常 先 通过 这 些 模型 得 到 分 值 向 量 ， 再 通过 
损失 函数 来 评价 模型 参数 的 优 劣 。 那 么 , 这 些 参数 如 何 取 到 最 优 值 呢 ? 
目前 的 主流 方法 是 基于 梯度 下 降 法 的 各 种 改进 算法 。 第 2 章 已 经 介绍 
了 梯度 下 降 法 ， 本 章 将 详细 介绍 各 种 改进 算法 。 


梯度 下 降 法 的 基本 思想 : 如 果 要 找到 某 函 数 的 最 小 值 ， 最 好 的 方 
法 是 沿 着 负 梯 度 方向 探寻 。 假设 有 一 个 参数 向 量 x 及 其 梯度 dx， 更 新 


形式 是 : 


x += -lr x dx 


其 中 【 称 为 学 习 率 ， 是 超 参 数 ， 是 正 的 小 常量 。 在 整个 数据 集 上 计算 
梯度 进行 参数 更 新 时 ， 只 要 学 习 率 足够 小 ， 每 次 更 新 参数 时 总 能 使 损 
失 函 数值 减 小 。 参 数 初 始 化 相关 的 内 容 可 参见 5.9 节 ， 梯 度 计算 方法 


见 第 6 章 。 
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5.1 随机 梯度 下 降 法 SGD 


参数 更 新 中 的 梯度 是 通过 对 训练 集中 所 有 样本 的 平均 损失 求 梯度 
得 到 的 。 当 训练 集 规模 较 小 时 ， 计 算 梯度 不 成 问题 。 然 而 对 于 大 规模 
数据 集 ( 比如 ImageNet )， 当 训练 样本 达到 百 万 量 级 时 ， 需 要 计算 整 
个 训练 集 的 梯度 ， 才 能 更 新 一 次 参数 。 这 样 更 新 效率 太 低 ， 浪 费 计算 
资源 。 一 个 常用 的 代替 方法 是 从 训练 集中 随机 抽取 小 批量 样本 ， 计 算 
它们 平均 损失 的 梯度 ， 来 实现 一 次 参数 更 新 。 小 批量 样本 可 包含 64 
个 或 128 个 样本 ， 而 整个 训练 集 有 120 万 个 样本 。 


用 小 批量 样本 的 平均 损失 代替 全 体 样 本 的 平均 损失 进行 参数 更 
新 ， 可 以 加 快 参数 更 新 频率 ， 加 速 收 敛 。 小 批量 样本 的 平均 损失 是 全 
体 样本 平均 损失 的 无 偏 估计 。 这 是 因为 训练 集中 的 同类 样本 是 相关 的 ， 
同类 样本 中 不 同 个 体 的 损失 是 相似 的 ， 所 以 随机 抽取 的 一 个 样本 损失 
可 以 作为 该 类 所 有 样本 损失 的 估计 。 


如 果 小 批量 样本 中 只 有 一 个 样本 ， 那 么 称 为 随机 梯度 下 降 法 
( Stochastic Gradient Descent, SGD ). SGD 使 用 不 广 ， 因 为 矩阵 的 向 量 
化 操作 使 一 次 计算 128 个 样本 的 梯度 比 128 次 计算 一 个 样本 的 梯度 要 
高 效 很 多 。SGD 指 每 次 使 用 一 个 样本 来 更 新 参数 ， 但 我 们 经 党 使 用 
SGD 来 指 代 小 批量 梯度 下 降 法 。 小 批量 样本 的 数量 是 一 个 超 参 数 ， 它 
受 存 储 器 的 存储 容量 限制 ， 一 般 设 置 为 32、64、128 等 2 的 指数 。 这 
是 因为 许多 矩阵 向 量化 操作 实现 时 ， 如 果 数 据 量 是 2 的 指数 ， 运 算 效 
率 会 更 高 。SGD 及 其 改进 算法 是 深度 学 习 中 最 常用 的 优化 算法 ,本章 
主要 介绍 这 些 算法 。 
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SGD 算法 中 ， 每 次 都 要 随机 抽取 batch 个 样本 ， 实 现时 可 以 采用 
先 整体 打 乱 训练 集 ， 然 后 每 次 按 顺序 取 batch 个 样本 的 方式 。 这 种 实 
现 方法 效率 高 ， 代 码 如 下 : 


def calu gradient (batch data, labels, x): 


return np.random.randn(np.size(x)) 


num train samples - 1000 
im height - 32 

im width - 32 

im dims - 3 

num class - 10 

batch - 20 

lr - 10**(-4) 

dim x - 1000 


x = np.random.randn(dim x) 


train data - np.random.randn(num train samples, im height, 
im width, im dims) 
train labels - np.random.randint (num class, 


Size - num train samples) 


epoch num - 20 
for epoch in range (epoch num): 
shuffle no - list(range(num train samples)) 
q np.random.shuffle(shuffle no) 


train labels - train labels[shuffle no] 
train data - train data[shuffle no] 


for i in range(0, num train samples, batch): 
©) batch data = train_data[i:i+batch,:] 
labels = train_labels[i:i+batch] 


dx = calu gradient (batch data, labels, x) 


e 6G 


X += -learning rate*dx 
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首先 定义 梯度 计算 函数 ， 这 里 采用 随机 数 模拟 梯度 ， 具 体 计算 见 
第 6 章 。 定 义 一 些 相关 变量 和 学 习 率 ,并 随机 生成 训练 集 。 语 句 OD 2X 
得 随机 打 乱 的 整数 序列 ， 语 句 O 整体 打 乱 训练 集 ， 语 句 Go 顺序 取出 
batch 个 样本 ， 语 句 四 计算 梯度 ， 语 句 名 更 新 参数 。 所 有 训练 样本 都 
训练 一 次 ， 称 为 一 个 周期 (epoch )。 注 意 ， 每 个 训练 周期 开始 时 ， 必 
须 重 新 打 乱 训练 集 。 


基于 SGD 的 改进 算法 , 只 有 语句 人 的 参数 更 新 不 同 , 前 面 程序 都 
是 一 样 的 ， 故 后 面 只 给 出 更 新 参数 的 程序 段 。 


5.2 基本 动量 } 


把 梯度 下 降 法 想象 成 小 球 从 山坡 滚 向 山谷 的 过 程 ， 损 失 值 是 小 球 
当前 的 高 度 ， 最 小 化 损失 值 就 是 希望 小 球 滚动 到 高 度 最 小 的 山谷 。 设 
设 小 球 的 空间 位 置 是 x， 每 次 移动 的 路 径 矢量 是 dx, 位置 x 处 的 山 的 
高 度 就 是 损失 值 。 那 么 基本 梯度 下 降 法 的 小 球 是 这 样 “滚动 ”的 : 在 
出 发 点 A 处 , 计算 点 A 在 各 个 方向 的 坡度 , 沿 着 坡度 最 陡 的 方向 移动 
一 段 距 离 到 达 B 点 ,然后 停 下 来 。 在 B 点 再 计算 坡度 最 陡 的 方向 , 沿 
着 这 个 方向 走 一 段 路 ， 再 停 下 。 注 意 每 到 一 个 新 位 置 ， 小 球 都 必须 停 
下 来 。 准 确 地 说 ， 小 球 并 没有 滚动 下 山 ， 而 是 育 人 下 山 的 方式 ， 走 一 
步 停 一 步 , 用 拐杖 探 明 坡 度 最 陡 的 方向 , 沿 此 方向 移动 一 步 后 停 下 来 ， 
周而复始 ， 直 到 到 达 山 谷 或 平地 ， 此 时 各 个 方向 上 的 坡度 都 为 0， 育 
人 无 法 移动 了 。 一 个 真正 的 小 球 要 比 盲人 高 效 得 多 ， 从 起 始点 A 静止 
滚动 到 点 B 的 时 候 , 小 球 获得 一 定 速 度 , 继续 滚动 , 小 球 会 越 滚 越 快 ， 
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快速 滨 向 谷底 。 动 量 法 就 是 通过 模拟 小 球 的 深 动 过 程 来 加 速 神经 网 络 
的 收敛 。 这 时 就 需要 一 个 速度 变量 ,根据 速度 变量 来 更 新 参数 。 速 度 
变量 积累 了 历史 梯度 信息 ， 使 之 具有 惯性 ， 当 梯度 方向 一 致 时， 加速 
收敛 ; 当 梯 度 方向 不 一 致 时 ， 减 小 路 径 曲 折 程 度 。 代 码 如 下 : 


mu = 0.9 
D v = mv 
Q v += - lr*dx 

变量 ”就 是 速度 ， 初 始 化 为 0 ( 相当 于 小 球 从 静止 开始 滚动 )， 语 
句 CD 表明 * 累 加 了 历史 梯度 ，mu 是 小 于 1 的 正 超 参数 ， 物 理 意义 类 
似 于 摩擦 系数 ， 该 变量 有 效 地 抑制 了 速度 ， 降 低 了 小 球 的 动能 ， 不 然 
小 球 在 山谷 永远 不 会 停 下 来 ( 如 果 没 有 摩擦 ， 深 动 的 小 球 会 一 直 运 动 
下 去 ， 不 会 停 在 山谷 )。 通 过 交叉 验证 ， 这 个 参数 通常 设 为 0.5、0.9 或 
0.99。 但 需 注 意 的 是 : mu 越 大 ， 摩 擦 越 小 ; mu= 1， 没 有 摩擦 ; mu-0, 
摩擦 无 穷 大 ， 变 为 基本 的 梯度 下 降 法 。 语句 书 表 明 速 度 v 受 当前 梯度 dx 


调节 。 


假设 每 个 时 刻 的 梯度 dx 相等 ， 由 语句 四 和 语句 @ 可 得 : v=-lr/ 
(1-7 mu) x dx， 此 时 相当 于 学 习 率 为 (1 - mu), mu =0.9 表 示 10 倍 于 
SGD 算法 的 收敛 速度 。 把 1/1 - mu) 看 作 放 大 率 更 容易 理解 ，mu HK, 
放大 率 越 大 ， 收 敛 可 能 越 快 。 


假设 每 个 时 刻 的 梯度 dx 总 是 0 ( 相当 于 小 球 滚动 到 平地 )， 由 语 
A CD 可 得 : vo mu'x vo， 其 中 是 参数 更 新 次 数 。 可 见 ，v 是 指数 衰 
减 ， 小 球 只 要 滚动 到 平地 时 的 初速 度 wo 足够 大 ， 就 有 机 会 冲 出 当前 平 
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地 ， 到 达 一 个 更 低 的 山谷 。 由 于 历史 原因 ， 速 度 ”被 称 为 动量 ， 所 以 
该 方法 称 为 动量 法 。 


5.3 Nesterov 动量 法 


基本 动量 法 每 步 的 前 进 方向 都 是 由 下 降 方向 的 历史 累积 v 和 当前 
点 的 梯度 方向 dx 合成 的 。 换 个 角度 看 ,可 以 认为 下 降 方向 本 来 应 该 为 
v (语句 @ )， 但 需要 考虑 当前 位 置 处 的 实际 情况 来 调整 v， 调 整 量 就 
是 当前 梯度 dx (语句 @ )。 上 述 方法 是 由 当前 信息 调整 v， 我 们 能 不 
能 通过 v 的 历史 信息 进行 加 速 呢 ?由 于 每 次 更 新 时 ，v 也 会 发 生 改 变 ， 
dy=yv-ye， 即 用 前 后 两 次 之 差 dy 来 调整 +:， 达 到 加 速 收敛 ， 其 中 we 
是 上 次 的 速度 (参见 语句 @ ) 这 种 方法 被 命名 为 Nesterov Accelerated 
Gradient， 简 称 NAG。 其 代码 如 下 : 


mu = 0.9 
D prev-2v 
Q v - mu*v 
© v += - lr*dx 
由 X+=V+Imux(V - pre v) 
5.4 AdaGrad 


前 面 讨 论 的 3 种 方法 都 是 对 参数 向 量 进行 整体 操作 ， 对 向 量 每 个 
元 素 的 调整 都 是 一 样 的 。 所 有 元 素 要 同时 调整 到 一 个 较 优 的 学 习 率 是 
很 困难 的 ， 需 要 经 过 反复 测试 ， 耗 费 大 量 的 计算 资源 ， 因 此 自 适 应 地 
调整 学 习 率 ， 甚 至 是 逐 参 数 的 自 适应 调整 学 习 率 成 为 了 当下 研究 的 热 
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也 | 


点 。 这 些 方法 一 般 会 引入 新 的 超 参数 ， 但 是 训练 集 对 这 些 超 参数 不 敏 
感 ， 参 数 设 置 比较 容易 。 下 面 介绍 一 些 在 实践 中 可 能 会 遇 到 的 常用 自 


适应 算法 。 首 先是 AdaGrad: 


cache += dx**2 
x += - (lr / (np.sqrt(cache) + eps)) *dx 


注意 , 变量 cache 初始 化 为 0, 它 和 梯度 向 量 dx 同 维度 ， 每 个 元 
素 累 加 了 对 应 梯度 元 素 的 历史 平方 和 。cache 用 来 归 一 化 参数 以 更 新 
步 长 ， 归 一 化 是 逐 元 素 进行 的 (1r / (np.sart(cache) + eps) ) 
所 以 ， 对 于 高 梯度 值 的 权重 ， 其 历史 累积 和 大 ， 等 效 学 习 率 减 小 ， 更 
新 强度 减弱 ; 对 于 低 梯度 值 的 权重 ,其 历史 累积 和 小 ， 等 效 学 习 率 增 
加 ， 更 新 强度 增强 。 有 意思 的 是 ，cache 开平 方 根 非常 重要 。 如 果 直 
接 使 用 cache， 算 法 的 效果 会 差 很 多 。 除 数 加 小 常量 eps (一 般 设 为 
le-4 到 le-8 之 间 ) 可 以 防止 除数 为 0。 


假设 梯度 向 量 dx 的 某 个 元 素 da 一 直 保持 不 变 ， 则 可 得 该 元 素 的 
更 新 规律 为 : a += - lvnp.sqrt(z) x sign(da)。 可 见 ， 其 更 新 量 与 梯度 大 
小 无 关 ， 更 新 方向 与 梯度 方向 相反 。 更 新 量 与 梯度 大 小 无 关 ， 因 此 小 
的 梯度 元 素 也 能 达到 较 快 的 更 新 速率 ， 这 是 AdaGrad 的 主要 优点 。 更 
新 量 随 着 迭代 次 数 n 的 增加 而 减 小 ， 所 以 AdaGrad 的 一 个 缺点 是 ， 从 
训练 开始 就 累积 梯度 平方 和 会 使 有 效 学 习 率 过 早 、 过 量 地 减 小 ， 这 会 
导致 过 早 停 止 学 习 。 


第 一 步 迭代 (n=1) 时 ,任意 一 个 参数 a 的 更 新 公式 为 : a - arx 
sign(da)。 改 变量 为 固定 值 r， 结 合 5.9 节 的 参数 初始 化 可 知 ，a 初始 
化 为 正 态 分 布 ， 所 以 Ir 的 取 值 不 能 太 大 ， 不 能 大 于 初始 化 的 标准 差 ， 
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否则 参数 的 随机 正 态 分 布 就 失去 意义 ， 变 成 固定 值 初始 化 。 


当 dx 为 0 时 , 更 新 停止 , 即 5.2 节 中 的 小 球 不 可 能 冲 出 当前 平地 ， 
BIER rà o 


5.5 RMSProp 


RMSProp 方法 采用 指数 衰减 的 方式 ， 让 cache 丢弃 遥远 过 去 的 
历史 梯度 信息 , 只 对 最 近 的 历史 梯度 信息 进行 累加 , 使 之 不 那么 激进 ， 
单调 地 降低 学 习 率 。 其 修改 方式 很 简单 ， 使 用 一 个 梯度 平方 的 指数 加 
权 的 移动 平均 : 


decay_rate = 0.9 

cache = decay rate * cache + (1 - decay rate) * (dx**2) 

x += - (lr / (np.sqrt(cache) + eps)) *dx 

变量 cache 初始 化 为 0 ,aecay_rate 是 一 个 超 参 数 , 常用 的 值 
是 (0.9, 0.99, 0.9991, x 更 新 和 AdaGrad 是 一 样 的 ， 只 是 cache 变量 
不 同 ， 看 起 来 更 像 动量 法 的 v. RMSProp 和 AdaGrad 一 样 ， 仍 然 是 基 
于 梯度 的 历史 累加 和 来 对 每 个 权重 的 学 习 率 进行 调整 。 不 同 的 是 ， 其 
更 新 主要 使 用 最 近 的 梯度 信息 ， 这 不 会 让 学 习 率 一 直 单 调 变 小 。 


假设 梯度 向 量 dx 的 某 个 元 素 da 一 直 不 变 ， 则 可 得 该 元 素 稳定 后 
的 更 新 规律 为 : a += -rx sign(da)。 可 见 ， 其 更 新 量 是 固定 值 TY， 更 新 
方向 与 da 相反 , 克服 了 AdaGrad 的 更 新 量 随 着 n 变 大 越 来 越 小 的 缺点 。 


第 一 步 迭 代 (n=1 ) 时 , 任 一 元 素 a 的 更 新 公式 为 : a += -lr/np.sqrt 


98 | 卷 积 神经 网 络 的 Python 实现 


(1-decay rate) x sign(da), 改变 量 为 固定 值 np.sqrt(1-decay rate). 3X 
与 AdaGrad 相 比 ， 改 变量 放大 了 l/np.sqrt(1—decay. rate) fii. 


当 dxz 为 0 时 ， 更 新 停止 ， 即 52 节 中 的 小 球 不 可 能 冲 出 当前 平地 。 


5.6 Adam 


Adam 看 起 来 像 是 RMSProp 的 动量 版 ， 其 更 新 方式 如 下 : 


mu - 0.9 

decay. rate - 0.999 
eps - 1e-8 

v = mu*v + (1-mu)*dàx 
vt - v/(1 - mu**t) 


cache = decay rate *cache + (1-decay rate )*(dx**2) 


OO 


cachet = cache/(1 - decay_rate**t) 
x += - (lr/ (np.sqrt(cachet) + eps)) * vt 


其 更 新 方法 和 RMSProp 一 样 , 但 采用 平滑 版 的 动量 v, 而 不 是 原 
始 梯度 dx, v 和 cache 初始 为 0。 语句 CD 中 七 是 迭代 次 数 ， 因 为 在 
完全 热身 之 前 存在 偏差 , 需要 采取 一 些 补偿 措施 , fili v fI cache 在 刚 
开始 训练 时 变 大 。 训 练 次 数 t 增 大 时 , mu**t 趋 近 0, 语句 中 在 训练 
后 期 没有 影响 。 


假设 梯度 向 量 dx 的 某 个 元 素 da 一直 不 变 ， 则 可 得 该 元 素 稳定 后 
的 更 新 规律 为 : a + = -lr x sign(da)。 可 见 ， 其 更 新 量 是 固定 值 lr， 更 
新 方向 与 梯度 方向 相反 。 


第 一 步 迭代 (n=1) 时 , 任 一 元 素 a 的 更 新 公式 为 : a+= -lr x sign 
(da), BUE E SIE Ir, E] AdaGrad 一 样 ,I 的 取 值 不 能 太 大 ， 其 默 
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认 值 是 10** (-3)。 


当 dx 为 0 时 ,如同 动量 法 ,动量 v 是 指数 衰减 的 ， 有 可 能 冲 出 
平地 。 


5.7 AmsGrad 


Adam 存在 可 能 不 收敛 的 缺点 ， 因 为 其 有 效 学 习 率 为 Ir/(np.sqrt 
(cache) + eps)， 其 中 cache 主要 受 最 近 的 梯度 历史 信息 影响 , 故 其 值 波 
动 较 大 。 当 它 取 比较 小 的 值 时 , 会 使 有 效 学 习 率 很 大 , 使 之 不 能 收敛 。 
RMSProp 也 有 类 似 缺 点 。 改 进 方法 就 是 使 有 效 学 习 率 不 能 增加 ， 只 需 
在 Adam 方 法 中 进行 很 小 的 修改 ， 语 句 QD HU: 


cache = np.max((cache, decay rate *cache + 
(1-decay rate)*(dx**2))) 


这 样 cache BE CUCBCHRUIEAR EIN, —REARZRMUIN, RA 
学 习 率 就 不 会 增加 ， 保 证 了 收敛 。 


关于 这 7 种 优化 方法 ， 如 何 选 择 呢 ? 推荐 首先 使 用 Adam 或 者 
Nesterov 动量 法 ， 也 可 以 尝试 AmsGrad。 


5.8 学 习 率 退 火 


训练 深度 网 络 的 时 候 ， 学 习 率 如 果 一 直 固定 不 变 的 话 ， 损 失 函 数 
就 难以 达到 深谷 。 通 常 随 着 训练 次 数 的 增加 ， 学 习 率 会 逐渐 变 小 ， 这 
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就 是 学 习 率 退火 。 以 小 球 滚动 为 例 , 学 习 率 很 高 时 , 小 球 的 动能 很 大 ， 
小 球 会 无 规律 地 四 处 滚动 , 难以 深入 损失 函数 更 深 、 更 罕 的 山谷 里 面 。 
学 习 率 很 小 时 ， 则 小 球 动能 大小 ， 滚 动 过 慢 。 所 以 刚 开始 的 时 候 ， 学 
习 率 应 该 取 比 较 大 的 值 ， 然 后 逐渐 减 小 。 速 率 减 小 得 不 能 过 慢 ， 也 不 
能 过 快 。 通常 ， 学 习 率 退火 有 如 下 3 种 方式 。 


口 随 训练 周期 衰减 : 每 进行 几 个 周期 ( epoch， 所 有 样本 都 训练 
了 一 次 称 为 一 个 周期 )， 降 低 一 次 学 习 率 。 典 型 的 做 法 是 每 5 
个 周期 学 习 率 减少 一 半 , 或 者 每 20 个 周期 减少 到 0.1， 这 些 数 
值 都 是 经 验 值 。 在 实践 中 更 为 常见 的 做 法 是 : 每 当 验 证 集 错误 
率 停止 下 降 时 ， 就 把 学 习 率 降低 到 原来 的 1/10。 


口 指数 衰减 : 数学 公式 是 a = ae". HP co 和 大 是 超 参 数 ，! 是 
迭代 次 数 。 

口 反比 衰减 : 数学 公式 是 a = acw(1+ 太 ， 其 中 ao 和 上 是 超 参数 ，1 
是 迭代 次 数 。 


实践 中 , 最 常用 的 退火 方法 是 随 训练 周期 衰减 , 因为 其 超 参数 ( 豪 
减 比例 和 训练 周期 ) 具有 更 好 的 实际 意义 。 最 后 ， 如 果 有 足够 的 计算 
资源 ， 可 以 让 衰减 更 慢 些 ， 这 样 训练 时 间 会 更 长 些 。 


59 ”参数 初始 化 


开始 训练 网 络 之 前 ， 需 要 初始 化 网 络 的 权重 。 由 于 此 时 对 任务 没 
有 移 验 知识 ， 所 以 不 可 能 知道 某 个 属性 对 分 类 是 正 相 关 还 是 负 相 关 ， 
所 以 权重 初始 化 为 0 比较 合理 。 但 是 ， 全 部 权重 都 初始 化 为 0 是 错误 


n 
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的 ,那样 会 使 网 络 中 同一 层 的 每 个 神经 元 都 计算 出 同样 的 输出 0， 然 
后 它们 就 会 在 反 向 传播 中 计算 出 同样 的 梯度 ， 从 而 进行 同样 的 参数 更 
新 ， 这 样 神经 元 之 间 就 失去 了 不 对 称 性 的 源头 。 


小 随机 数 初 始 化 : 权重 初始 值 接 近 0 但 不 能 等 于 0， 是 比较 合理 
的 。 采 用 小 的 正 态 分 布 的 随机 数 W = 0.01 x np.random.randn(D, H) 来 
打破 对 称 性 。 但 并 不 是 小 数值 一 定 会 得 到 好 的 结果 ， 这 样 会 减 慢 收敛 
速度 。 因 为 在 梯度 反 向 传播 的 时 候 ， 会 计算 出 非常 小 的 梯度 。 


o 


使 用 1/sqrt(n) 来 校准 方差 .使 输出 神经 元 的 方差 为 1， 这 样 参 数 
初始 化 为 w = np.random.randn(n)/sqrt(n), 其 中 是 神经 元 连接 的 输入 
神经 元 数量 。 实 践 证 明 ， 这 可 以 提高 收敛 速度 。 


偏 置 初始 化 : 通常 将 偏 置 初始 化 为 0 或 者 小 常数 (0.01), 这 是 因 
为 随机 权重 矩阵 已 经 打破 了 网 络 对 称 性 。 


当前 推荐 的 初始 化 为 : 当 使 用 ReLU 时 ,用 w=nprandom.randn(n) x 
sqrt(2.0/n) 来 进行 权重 初始 化 。 代 码 如 下 : 


in_depth = 128 

out depth = 32 

std = np.sgqgrt (2/in depth) 

weights - std * np.random.randn(in depth, out depth) 
bias - np.zeros((1, out depth)) 


5.10 ”起 参数 调 优 


机 噩 学 习 的 各 种 模型 ， 包 括 线性 模型 、 和 常规 神经 网 络 和 卷 积 网 络 


102 | 卷 积 神经 网 络 的 Python 实现 


等 ,以 及 各 种 优化 算法 ( 如 梯度 下 降 法 ), 都 会 引入 很 多 超 参数 。 贯 穿 
本 书 的 最 重要 的 超 参数 有 两 个 一 一 初始 学 习 率 和 正则 化 系数 (L2 4 
罚 ), 还 有 很 多 值 比 较 稳 定 的 超 参 数 , 比如 动量 法 中 的 动量 参数 mu( 一 
般 取 0.9 ) 等 。 如 何 确定 最 优 的 超 参数 ? 超 参数 不 能 通过 学 习 算 法 进行 
优化 ， 是 人 为 指定 的 ， 所 以 为 了 获得 最 优 的 超 参 数 ， 需 要 不 断 尝试 不 
同 取 值 ， 即 在 一 定 范围 内 搜索 最 优 值 。 下 面 是 一 些 注意 事项 。 


首先 ， 要 设置 合理 的 超 参 数 范围 ， 其 学 习 率 和 正则 化 系数 要 在 对 
数 尺度 上 进行 搜索 。 例如, 一 个 典型 的 学 习 率 搜索 范围 是 : 1r = 10 ** 
uniform(-6，1)。 这 是 因为 通过 学 习 率 乘 以 梯度 、 正 则 化 系数 乘 以 
权重 ， 来 对 模型 产生 影响 。 但 是 有 一 些 参 数 ( aropout ) 还 是 在 原始 
尺度 上 进行 搜索 (dropout = uniform(0,1) )。 


其 次 ， 随 机 搜索 优 于 网 格 搜索 ， 它 可 以 更 精确 地 发 现 那些 比较 重 
要 的 好 的 超 参数 数值 ， 而 且 程 序 也 更 容易 实现 。 超 参数 随机 搜索 的 代 
码 如 下 : 


D 1r = t1, -6] 

Q reg = [-3, -6] 

@ num try = 10 
minlr - min(lr) 
maxlr - max(lr) 


randn - np.random.rand(num try*2) 


e» 6 


lr array = 10**(minlr + (maxlr - minlr)*randn[0: num try]) 


minreg - min(reg) 

maxreg - max(reg) 

reg array = 10**(minreg + (maxreg - minreg)*randn([num try: 
2*num try]) 


lr regs = zip(lr array, reg array) 
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© for lr reg in lr_regs: 
# train() 


pass 


语句 CD 定义 学 习 率 对 数 搜索 范围 ， 语 名 @ 定义 正则 化 系数 对 数 
搜索 范围 , 语句 CD 定义 随机 搜索 次 数 , 语句 由 生成 [0, 1] 均 匀 随 机 数 ， 
语句 名 生成 对 数 尺度 的 学 习 率 数组 ,语句 O 对 每 一 个 超 参 数组 合 进 行 
训练 。 


为 了 快速 找到 最 优 超 参数 ， 要 先 粗 后 精 地 分 阶段 搜索 。 实 践 中 ， 
先进 行 粗略 范围 (比如 10 ** uniform(-6, 1)) 搜索 ， 然 后 根据 
好 结果 出 现 的 地 方 缩小 搜索 范围 。 进 行 粗 搜索 的 时 候 ， 模 型 训练 一 个 
周期 就 可 以 了 。 因 为 如 果 超 参数 设 定 不 合理 ， 模 型 会 无 法 学 习 ， 或 者 
损失 值 会 突然 增 大 很 多 。 在 精细 搜索 阶段 ， 要 缩小 搜索 范围 ， 模 型 需 
要 运行 多 个 周期 ， 比 如 5 个 。 最 后 ， 在 最 终 的 范围 内 进行 仔细 搜索 ， 
运行 更 多 个 周期 ， 比 如 20 个 。 


特别 要 注意 边界 上 的 最 优 值 ， 一 旦 最 优 值 位 于 边界 上 ， 则 和 需 重新 
设 定 包含 该 最 优 值 的 搜索 范围 ， 再 次 进行 精细 搜索 。 


由 于 超 参数 调 优 需 要 大 量 的 计算 资源 ， 可 能 需要 几 天 甚至 几 周 、 
几 个 月 ， 所 以 实践 中 只 使 用 一 个 验证 集 ， 不 进行 交叉 验证 。 同 时 需要 
监控 每 个 训练 周期 后 验证 集 的 准确 率 和 存储 模型 的 记录 点 〈 记录 点 中 
应 包含 各 种 模型 性 能 统计 数据 ， 比 如 损失 值 随 训练 周期 的 变化 和 验证 
集 的 准确 率 等 ), 所 以 文件 名 中 最 好 包含 验证 集 的 性 能 参数 , 方便 后 期 
查找 和 排序 。 


KA E 
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梯度 有 反问 传播 算法 


本 章 的 核心 问题 是 : 给 定 参数 化 模型 的 损失 函数 w), HP x 


是 输入 数据 ，w 是 模型 参数 ， 需 要 计算 损失 函数 关于 参数 w 的 梯度 。 


有 了 梯度 ,我 们 就 能 使 用 梯度 下 降 法 的 各 种 改进 方法 进行 模型 优化 了 。 


注意 损失 函数 输出 的 是 标量 ， 是 一 个 数值 ， 而 不 是 向 量 或 矩阵 。 


6.1 基本 函数 的 梯度 


神经 网 络 模型 包含 最 基本 的 三 种 函数 : 乘法 、 加 法 和 非 线性 激活 


ReLU。 这 三 种 函数 的 梯度 计算 都 非常 简单 ， 列 举 如 下 : 


of of 
? z > = * 二 
f (x, w) = xw x w. 2» x 
fœ =x+y >% ei 9-1 
Ox Oy 


f) = max(0,x) > S 15» 0 


(6.1) 


这 里 所 有 的 变量 都 是 标量 , 为 一 个 数值 。1(x) 是 指示 函数 ， 当 括号 内 的 
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表达 式 为 真 时 输出 1, 否则 输出 0。 注意 max(0, 加) 函数 , 在 0 点 导数 不 
连续 , 但 是 右 导 数 为 1， 左 导数 为 0, 存在 次 导数 。 读 者 需要 牢记 偏 导 
数 的 意义 为 函数 值 对 于 该 变量 的 敏感 程度 ， 偏 导数 越 大 说 明 越 敏感 。 

偏 导数 为 正 ， 表 示 变 量 增 加 ， 函 数值 增加 ， 是 正 相 关 ; 偏 导数 为 负 ， 

表示 变量 增加 ， 函 数值 减 小 ， 是 负 相 关 。 


6.2 ” 链 式 法 则 


对 于 复合 函数 ， 求 梯度 需 采 用 链 式 法 则 。 链 式 法 则 的 内 容 如 下 : 


z=) y= 20) 
Oz Oz Oy An 
则 一 = 一 一 , 即 z 对 变量 x 的 梯度 是 z 对 中 间 变 量 y 的 梯度 与 ?对 变 
Ox Oy Ox 
E X 的 梯度 的 乘积 Ao 


常规 神经 网 络 和 卷 积 网 络 都 是 多 层 网 络 ， 多 层 网 络 从 函数 角度 看 ， 
就 是 复合 函数 。 举 个 例子 , 为 了 突出 链 式 法 则 , 我 们 对 模型 进行 简化 ， 
忽略 偏 置 ， 令 神经 网 络 的 每 层 神经 元 数量 都 为 1， 这 样 都 是 标量 ， 简 
化 了 偏 导数 求解 ， 当 两 层 的 常规 神经 网 络 用 于 回归 任务 时 ， 其 数学 模 
型 为 : 


1 
d, = xw,, h, = max(0,a,), a, = hiw,, loss = 7(% -» (6.2) 


其 中 xA, yo x 对 应 的 标签 ， 即 需 拟 合 的 真实 值 。 为 了 求 loss 
对 参数 wi 的 梯度 ,必须 采用 链 式 法 则 ， 先 求 每 个 函数 的 梯度 ,然后 所 
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有 梯度 连 乘 ， 得 到 最 终 梯度 


Oloss 0a, Oh, Oa, 
, F , = I > 0 av eer m 6.3 
ða, — 05 — yo Oh, wW: a, (a, ) Ow, x (6.3) 
Oloss 
= (a —yo) wl(a > 0)x (6.4) 
Ow 


这 个 例子 表明 ， 利 用 链 式 法 则 求 梯度 ， 只 要 能 求 得 每 个 中 间 函 
数 的 梯度 ， 则 最 终 的 梯度 就 是 每 个 梯度 的 乘积 。 中 间 函 数 就 是 每 层 
的 变换 函数 ， 它 们 都 由 三 种 基本 函数 组 成 ， 求 解 十 分 简单 ， 所 以 不 
存在 困难 。 


这 是 一 个 稍微 复杂 的 例子 ， 函 数 形式 : 


XF 
fl (6.5) 
2x y 


SR AAT x 的 偏 导数 。 读 者 可 以 采用 高 数 的 方法 直接 求 偏 导数 ， 这 里 为 
了 清晰 地 展示 链 式 法 则 和 理解 深度 网 络 ， 我 们 采用 分 步 法 。 分 步 法 的 
关键 是 一 个 复杂 函数 通过 中 间 变 量 , 使 之 变 成 简单 模块 的 般 套 ， 每 个 
简单 模块 能 直接 利用 公式 得 到 偏 导 数 ， 每 个 模块 相当 于 一 层 网 络 。 具 
体 如 下 ， 先 通过 一 些 中 间 变量 来 计算 函数 值 : 


num = x + y, den =2x+y, invden =1/den, f =numxinvdena (6.6) 


再 对 每 个 函数 求 偏 导数 ， 


or = invden ] Pon 2 pum. 1 
Onum Oinvden — . 2 Ox Ox 
=—invden (6.7) 
of Oden Oden Onum 
= num =1 =1 


Ginvden "| y By 
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这 里 有 两 个 路 径 可 以 得 到 了 对 x 的 偏 导数 : 


of _ | Of Oinvden Oden - vitis eins den yn 
Ox  Oinvden Oden Ox 
Of | Of Onum 


Ox num Ox 


一 定 要 注意 ,最 终结 果 是 这 两 个 偏 导数 之 和 。 


(6.8) 
=invden x1 


6.3 深度 网 络 的 误差 反 向 传播 算法 


前 面 利用 两 层 网 络 的 模型 来 求 损 失 隐 数 对 参数 的 偏 导 ， 该 方法 虽 
然 能 得 到 一 些 有 意义 的 结果 ， 但 不 能 深入 理解 深度 网 络 的 梯度 反 向 传 
播 规 律 。 本 节 采 用 半 层 网 络 模型 ， 求 损失 函数 对 参数 的 人 往 导 ， 达 到 深 
刻 理 解 梯度 反 向 传播 规律 的 目的 ,这 对 理解 深度 网 络 训练 特别 有 帮助 。 


同 理 ， 本 节 为 了 突出 梯度 反 向 传播 规律 ， 简 化 数学 处 理 ， 令 深度 
申 经 网 络 的 每 层 神 经 元 数量 都 为 1， 这 样 都 是 标量 , 简化 了 求 偏 导数 。 
申 经 网 络 用 于 回归 任务 ， 设 x 是 输入 ,yo 是 x 对 应 的 标签 ， 即 需 拟 合 
的 真实 值 , h, 是 网 络 的 预测 值 ，f (x) 是 非 线性 激活 函数 。 令 MET x, 
f'(a,) 等 于 1， 则 数学 模型 为 : 


>- 


E 


a, 2 xw,h, = f(a) 


a, =h wh, = f(a,) 
: (6.9) 


a, €: h, ,w,,h, 三 a, 


1 
loss - 50, -ny 
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首先 ， 对 每 层 求 偏 导数 ， 然 后 进行 连 乘 ， 就 能 得 到 损失 loss 对 任 一 层 
Oloss £ s 
as c0 oo [W] [Eh (6.10) 


仔细 分 析 式 (6.10)， 这 里 有 几 点 请 读者 注意 。 


OQ 5, -yo 是 预测 值 和 真实 值 之 间 的 误差 ， 乘 积 中 的 变量 是 从 最 后 
一 层 开始 向 前 递 推 的 ， 所 以 该 方法 称 为 误差 反 向 传播 算法 。 有 
误差 ， 就 有 梯度 ， 就 能 学 习 ， 直 到 误差 为 0， 学习 才 结束 。 

O 表达 式 中 有 中 间 变 量 w， 所 以 为 了 加 快 梯 度 计 算 ， 需 要 在 网 络 

的 前 向 计算 过 程 中 存储 中 间 变 量 ， 但 这 样 会 占用 大 量 内 存 。 

a 表达 式 中 含有 权重 的 乘积 ， 所 以 如 果 权 重 初始 化 得 过 小 ， 梯 度 
就 会 很 小 ， 导 致 学 习 速 度 慢 。 因 为 权重 的 绝对 值 小 于 1， 所 以 
相 乘 的 项 越 多 ， 乘 积 越 小 ， 这 导致 越 是 靠 前 的 层 (i 较 小 ) 的 
参数 越 难 学 习 。 

Q 表达 式 中 有 非 线 性 激活 函数 导数 的 乘积 。 当 激活 函数 采用 
sigmoid 或 tanh 等 函数 时 , 由 于 其 导数 绝对 值 均 小 于 1, 日 存在 
饱和 ( 导数 趋 近 0 ), 这 样 乘积 会 很 小 。 特 别 是 对 于 网 络 前 面 的 
层 ， 乘 积 会 更 小 。 这 种 现象 在 浅 层 网 络 不 明显 ， 但 在 深度 网 络 
中 特别 明显 ， 因 为 层 数 n 基本 都 在 10 以 上 ， 甚 至 成 百 上 千 。 
这 样 连 乘 的 项 很 多 ， 乘积 会 十 分 小 ( 0.5”= 10“ ), 梯度 太 小 会 
导致 参数 更 新 率 低 ， 学 习 困 难 。 


于 0， 导 数 为 0; 
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口 如 果 激 活 函 数 是 ReLU，ReLU 的 导数 为 Ix>0)， 即 变量 小 于 等 
变量 大 于 0， 参 


导数 为 1。 当 网 络 采 用 合适 的 


数 进行 初始 化 和 数据 归 一 化 时 ， 可 假设 网 络 各 层 中 间 变 量 a 
有 一 半 的 概率 小 于 0， 一 半 的 概率 大 于 0， 这 样 loss 对 参数 w, 


的 梯度 为 0 的 概率 十 分 高 ， 


并 且 随 着 i 的 减 小 会 越 来 越 高 。 当 


梯度 为 0 时 ， 根 据 梯度 下 降 法 ， 参 数 将 无 法 更 新 ， 不 能 进行 学 
习 。 在 深度 卷 积 网 络 中 ,损失 函数 对 前 面 几 层 参 数 的 梯度 包含 


大 量 激活 函数 梯度 的 连 乘 ， 


一 层 激活 函数 的 梯度 为 0， 


则 整个 表达 式 就 为 0。 因 此 ， 网 络 中 大 量 参 数 的 梯度 会 为 0， 
易 导 致 “ReLU 死亡 ”问题 ， 


口 如 果 激 活 函 数 是 


所 以 前 面 几 层 的 参数 很 难 进行 有 


ReLU， 虽 然 大 部 分 非 线性 激活 函数 导数 的 乘 


RE 0, 但 还 是 有 


部 分 乘积 不 是 0, 则 这 些 乘积 就 是 1 ( 虽然 所 


占 比 例 不 高 ), 不 会 像 sigmoid 函数 那样 ， 乘 积 都 变 得 很 小 。 乘 
积 为 1 时 , 学 习 就 比较 容易 , 所 以 ReLU 的 收敛 速度 比 sigmoid 
快 不 少 ， 这 也 是 ReLU 大 量 使 用 的 原因 。 


6.4 ERE 


实际 的 网 络 中 ， 所 有 的 变量 ( 包括 输入 、 中 间 变 量 和 参数 ) 都 是 
矩阵， 这 样 求 中 间 函 数 的 梯度 就 是 求 矩 阵 对 和 矩阵 的 梯度 ， 非 常 困难 。 


在 上 面 的 例子 中 , 由 于 变量 都 是 标量 , 所 以 中 间 函 数 的 梯度 也 是 标量 ， 
十 分 简单 。 这 里 通过 一 个 数学 技巧 ， 避 免 直接 计算 中 间 函 数 的 梯度 ， 


达到 简化 计算 的 目的 ， 而 


且 更 便于 到 


有 解 。 
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因为 损失 函数 是 标量 ,最 终 的 目的 是 计算 损失 函数 对 参数 的 梯度 ， 
且 标 量 对 矩阵 参数 的 梯度 是 矩阵 ， 所 以 梯度 矩阵 的 尺寸 和 和 失 阵 参数 的 
尺寸 一致 。 利 用 这 个 性 质 ， 能 极 大 地 简化 梯度 计算 。 任 何 机 器 学 习 模 
型 的 损失 函数 值 都 是 标量 ， 这 一 定 要 牢记 在 心 ， 所 以 直接 求 损失 函数 
对 各 层 参数 的 梯度 会 十 分 方便 。 


这 里 直接 给 出 结论 : 如 果 读 者 对 矩阵 求 导 感 兴趣 ， 可 以 去 查看 相 
关 和 矩阵 论 的 图 书 。 


网 络 最 后 一 层 输 出 分 值 向 量 (向量 是 矩阵 的 特例 ) $。 假 设 我 们 
得 到 损失 函数 loss 对 5 的 梯度 , 该 梯度 简 记 为 dS C 注意 之 后 的 损失 函 
数 对 参数 的 梯度 都 简 记 为 AW, AERA dloss )， 注 意 dS RIS BN. 
十 相同 。 网 络 最 后 两 层 的 模型 如 下 : 


Api = H, W,» H,, 5 f(A, 4). 
S-H, W,, (6.11) 
loss = L(S) 


再 次 提醒 此 时 所 有 变量 都 是 矩阵 ， 已 经 得 到 dS MWEMA as 开始 
反 向 传播 , 推导 其 他 变量 的 梯度 。 首 先 , ARR S= H, W, RTT H, s, 
W, 的 梯度 ， 其 值 为 : dH, ,- dSW, fü dW, = HH,1 dS, EPEE EER T 
RIEPEN FEE ARYE H, 5AA, DM dH, H4 dA, , dH, ,/' (A, .) 
注意 该 式 是 逐 元 素 计算 的 ， 不 是 矩阵 乘法 。 现 在 有 了 dAn, HAE 
Ani = H, oW, a, "IAS dH, = dA, 47, 和 dW,; = H, ,dA, i. 有 了 
dH, >， 可 以 继续 往 前 推 ， 反 向 得 到 各 层 参 数 和 中 间 变 量 的 梯度 ， 直 到 
得 到 第 一 层 参数 的 梯度 和 输入 的 梯度 。 
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这 里 的 核心 是 矩阵 乘法 A — HW, JEH GI dA, KR dH fll dW, 
那么 : 


dH -dAW" 


(6.12) 
dW = H'dA 


希望 读者 记 住 此 公式 ,该 公式 比较 好 记 ， 首 先 把 这 些 变 量 看 成 标 
i, 则 dH= WdA, dW- Hd4， 然 后 把 它们 看 作 和 矩阵 。 由 于 矩阵 乘法 
需要 满足 矩阵 的 尺寸 一 致 性 ， 即 尺寸 为 m x n 和 尺寸 为 n x 的 和 矩阵 乘 
BUM mxk 的 和 矩阵， 两 个 相 乘 矩阵 必须 有 个 维度 相等 。 可 以 发 现 ， 只 
A dH = d4W fll aW = H'dA 的 形式 满足 矩阵 乘法 的 性 质 。 


6.5 softmax 损失 函数 梯度 计算 


根据 第 2 章 的 内 容 ， 可 得 softmax 损失 函数 的 定义 : 


天 
p, 7 -log(e* /X e”) 
i 2 (6.13) 


L = -log(p, ) 


HP ye REA i 的 标签 ， 即 样本 类 别 的 序号 ,pi 是 第 类 的 概率 ,54 是 第 
类 的 分 值 。 现 在 求 OL, / Os, ， 利 用 高 数 知识 ， 可 以 很 容易 求 出 该 梯度 : 


OL, / 0s, = p, - (y; =k) (6.14) 
其 中 ，70， = 月 表示 当 大 等 于 标签 六 时 ,， 则 结果 等 于 1， 否则 为 0。 这样 
我 们 就 得 到 了 d8， 然 后 就 可 以 进行 6.4 节 的 梯度 反 向 传播 ， 获 得 各 层 
参数 的 梯度 。 
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式 (6.14) 十 分 简洁 ， 同 时 具有 启发 意义 。 由 于 概率 pA T O, 所 
以 当 大 不 等 于 标签 y; 时 ， 梯 度 为 po WENE, RIME wx 增加 ， 损 
KRE L; 随 之 增加 ， 也 即 随 着 损失 值 LOU], scu]. KEERN 
所 希望 的 : 对 于 非 类 别 对 应 的 分 值 ， 希 望 其 越 小 越 好 。 当 等 于 标签 
yit, WEE p, -1， 小 于 0。 梯 度 为 负 ， 表 示 分 值 s, 增加 ， 损 失 值 
Li 减 小 ， 也 即 损失 值 L; 减 小 ,会 使 st 增 大 。 这 正 是 我 们 所 希望 的 : 对 
于 样本 的 类 别 对 应 的 分 值 ， 我 们 希望 其 越 大 越 好 。 


实践 中 ， 一 般 会 对 多 个 样本 同时 进行 处 理 ， 代 码 如 下 : 


K = 10 f$ XANAX 

N = 128 # 样本 数量 

Scores = np.random.randn(N, K) # 一 行 一 个 样本 的 分 值 向 量 

labels = np.random.randint(K, size = N) 

exp scores = np.exp (scores) 

exp scores sum = np.sum(exp scores, axis = 1, keepdims = True) 


probs - exp scores/exp scores sum 


dscores - probs.copy() 
Qo dscores[range(N), labels] -- 1 


dscores /= N 


BGBLAE BLADE EMERE, FErPAHEDBPERI— 1138— 1 FEAS 
H4 BIS EE. PAJESTSERCSORBIMORIAHEOBEEBUBSEE, BARF. E 
意 语 句 CD 的 索引 方式 , 用 于 获得 样本 的 类 别 分 值 。 分 值 梯度 ascores 
的 尺寸 和 scores 一 致 ， 每 行 对 应 一 个 样本 。 


6.6 ”全 连接 层 梯度 反 向 传播 


全 连接 层 梯度 的 计算 和 6.4 节 所 述 很 像 ， 只 是 多 了 偏 置 。 公 式 为 


S-XW- 
已 知 dS, 
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b, Hip XERA, WERE, b 是 偏 置 ,S 是 输出 分 值 矩 阵 。 
需要 计算 dX, dW FI db。 由 于 NumPy 的 广播 机 制 ， 应 注意 


5b 是 癌 量 。 代 码 如 下 : 


D = 784 # 数据 维度 
K = 10 # XA 
= 128 # 样本 数量 
X = np.random.randn(N, D) # 一 行 一 个 样本 
W= 0.01 * np.random.randn(D,K) 
b - np.zeros((1,K)) 
Scores = np.dot(X, W) + b 
# 反 向 传播 
dscores = np.random.randn(N, K) # 与 scores 的 尺寸 一 样 
dX = np.dot (dscores, W.T) 
dW = np.dot(X.T, dscores) 
(D db = np.sum(dscores, axis = 0, keepdims = True) 


Tin T TEAMBÁABEE,. RIEÉERE—fTT4E— A FEAR BA BLIR E. B 
机 生成 分 值 和 矩阵 的 梯度 dscores 后 ,计算 dX 和 dW。 需要 特别 注意 
语句 OD 中 db 的 计算 方式 ，dpb 中 的 每 个 元 素 是 dscores 每 列 之 和 。 


因为 如 果 


不 使 用 NumPy 的 广播 机 制 ， 则 p 向 量 需 扩 增 为 矩阵 。 计 算 


db 的 每 个 元 素 ， 有 条 路 径 ，N 条 路 径 之 和 就 是 db 元 素 的 值 。 


6.7 ”激活 层 梯度 反 向 传播 


当 激 活 函 数 采用 ReLU 时 ， 公 式 为 Hou = ReLU(His)， 其 中 二 ,是 


激活 层 的 
需要 计算 


输入 , Hou 是 输出 o 注意 , 该 公式 是 逐 元 素 计算 的 。 已 知 dHou, 
dHin。ReLU 的 梯度 计算 特别 简单 ， 因 为 当 输 入 小 于 Of, BR 
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度 为 0; 当 输 入 大 于 0 时 , 梯度 为 1。 所 以 于 ,的 每 个 元 素 只 需 简 单 地 和 
0 比较 ， 如 果 大 于 0， 则 输出 梯度 等 于 输入 梯度 ， 否 则 为 0。 代码 如 下 : 


dim1 - 164 

dim2 e 128 

Hin = np.random.randn(dim1, dim2) 

Hout = np.maximum(0, Hin) 4 ReLU 激活 

dHout = np.random.randn(dim1, dim2) 4 5 Hout 的 尺寸 一 样 
# 反 向 传播 

dHin = dHout 

dHin[Hin <= 0] = V 


对 于 随机 生成 的 输入 和 矩阵 Hu 和 梯度 dHowt， 先 进行 ReLU 激活 ， 


输入 梯度 先 赋值 为 输出 梯度 , 然后 进行 梯度 反 传 ， 即 把 输入 值 HaT 
等 于 0 的 梯度 设置 为 0。 该 代码 十 分 清晰 地 展示 了 梯度 反 向 传播 , 但 是 
增加 了 很 多 中 间 变 量 ， 存 储 开销 比较 大 。 实 践 中 代码 可 以 简化 如 下 : 


© 


dim1 = 164 

dim2 s 128 

hidden data = np.random.randn(diml, dim2) 

hidden data = np.maximum(0, hidden data) # ReLU 激活 
dhidden data = np.random.randn(dimi1, dim2) 

# 5 hidden data 的 尺寸 一 样 

# 反 向 传播 

dhidden data[hidden data <= 0] = 0 


由 于 输入 数据 和 输出 数据 的 尺寸 相同 ， 又 不 需要 存储 中 间 结 


所 以 输入 和 输出 数据 可 以 共享 存储 空间 ， 使 用 同一 个 变量 。 


与 其 他 激活 函数 的 梯度 反 向 传播 程序 类 似 ， 只 是 语句 OD 有 所 不 


Fl, ÆA ELU 激活 函数 为 例 进行 介绍 ， 公 式 为 : 


x tg xco 
e'-1 如 果 x<0 


fo 
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ros lc 如 果 x 宇 0 


e 如 果 x<0 


me = 了 (x)+1, 所 以 语句 电 的 代码 为 : dhidden data[hidden data 


<= 0] * = (hidden data + 1)。 


6.8” 卷 积 层 梯 度 反 向 传播 


卷 积 层 的 梯度 反 向 传播 比较 复杂 ， 本 书 采用 大 矩阵 乘法 来 实现 
梯度 反 向 传播 的 计算 过 程 和 卷 积 层 的 正 向 计算 过 程 正 好 相反 ， 是 其 逆 
过 程 ， 所 以 本 节 首 先 简单 回顾 一 下 如 何 利用 大 和 矩阵 乘法 实现 卷 积 层 的 
正 向 计算 过 程 。 其 核心 有 三 步 。 


(1) 将 输入 特征 图 变换 为 大 矩阵 matric_datas 


(2) 进行 矩阵 相 乘 和 非 线性 激活 〈 等 价 于 全 连接 层 ) 后 得 到 


filter datas 


(3) 将 £ilter data 变换 为 输出 特征 图 。 


卷 积 层 梯 度 反 向 传播 是 已 知 输出 特征 图 的 梯度 ， 求 输入 特征 图 的 
梯度 及 卷 积 核 的 梯度 ， 其 过 程 如 下 。 


(1) 把 输出 特征 图 的 梯度 dout_gata 变换 为 矩阵 形式 〈 正 向 计算 
第 (3) 步 的 逆 过 程 )。 
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(2) 将 全 连接 层 和 激活 层 的 梯度 进行 反 向 传播 。 


(3) 把 第 (2) 步 得 到 的 大 和 矩阵 梯度 变换 为 特征 图 形状 的 梯度 ， 即 得 
到 输入 特征 图 的 梯度 。 


梯度 反 向 传播 时 ， 需 要 正 向 计算 过 程 得 到 的 matric data 和 
filter data, 读者 只 要 理解 了 正 向 计算 过 程 ， 其 逆 过 程 很 简单 ， 
所 以 这 里 直接 给 出 代码 。 若 需要 示意 图 ， 可 以 参考 4.2.5 节 的 图 4.4。 


首先 ， 定 义 一 些 超 参数 ， 同 时 随机 生成 一 些 必 要 的 数据 ， 这 些 数 
据 能 够 在 正 向 计算 中 获得 : 


filter size = 3 


filter size2 - filter size*filter size 

stride - 1 

padding - (filter size - 1)//2 

batch - 8 

(in height, in width, in depth) - (32, 48, 16) 
(out height, out width, out depth) - (32, 48, 32) 


out size - out height*out width 


dout data - np.random.randn(batch, out height, out width, 
out, depth) 
matric data - np.random.randn(out size*batch, 


filter size2*in depth) 


filter data - np.random.randn(out size*batch, out, depth) 
weights - 0.01 * np.random.randn(filter size2*in depth, 
out depth) 


其 中 , dout. data 是 上 次 梯度 反 向 传播 得 到 的 , 是 输入 梯度 , matric_ 


data, filter. data 和 weights 都 是 在 正 向 计算 中 得 到 的 。 
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然后 把 dout. data 变换 为 矩阵 形式 afilter_data， 即 尺寸 与 


filter data 一 致 。dqout_aqaata 的 每 个 深度 列 就 是 dfilter data 
的 一 行 ， 代 码 如 下 : 


dfilter data = np.zeros like(filter data) 
for i batch in range(batch): 
i batch size = i batch*out, size 
for i height in range(out height): 
i height size = i batch size + i height*out width 
for i width in range(out width): 
dfilter data[i height size + i width, :] = 
dout data[i batch, i height, i width, :] 


其 次 ， 进 行 激活 层 和 全 连接 层 反 向 传播 ， 得 到 权重 dweights, 
偏 置 的 梯度 doias 以 及 矩阵 形式 的 梯度 dmatric, data: 

dfilter data[filter data <= 0] = 0 

dweights - np.dot(matric data.T, dfilter data) 


dbias - np.sum(dfilter data, axis - 0, keepdims - True) 
dmatric data - np.dot(dfilter data, weights.T) 


最 后 , 把 dmatric data 变换 为 特征 图 形状 的 梯度 , 即 得 到 输入 
特征 图 的 梯度 : 


padding height = in height + 2*padding 

padding width = in width + 2*padding 

dpadding data - np.zeros((batch, padding height, 
padding width, in depth) ) 


height ef = padding height - filter size + 1 
width ef = padding width - filter size + 1 
for i batch in range(batch): 


i batch size - i batch*out size 
for i h, i height in zip(range(out height), range(0, 
height ef, stride)): 
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i height size = i batch size + i h*out width 
for i w, i width in zip(range(out width), range(0, 
width ef, stride)): 
中 dpadding data[i batch, i height : i height + 
filter size,i width : i width + filter size, :] 
+= dmatric data[ 
i height size + i w, :].reshape 
(filter size, filter size, -1) 


if padding: 
din data - dpadding. data[:,padding:-padding,padding: 
-padding,:] 
else: 
din data - dpadding. data 


UP, dmatric data 的 每 一 行 数据 就 是 apadding data 的 局 部 窗 
口 的 一 个 数据 , 注意 行 向 量 需 要 reshape 成 3D 和 矩阵。 特别 注意 语句 OD 
中 的 加 号 ， 这 是 因为 apadding data 数据 有 多 条 路 径 ( 即 局 部 窗口 
AEA ) 得 到 梯度 ， 所 以 需要 累加 。 


Meu 


现在 有 了 din_data， 又 可 以 向 前 一 层 进 行 梯度 反 向 传播 了 ， 这 
样 一 层 一 层 传播 下 去 ， 直 到 第 一 层 。 


6.9 ”最 大 值 池 化 层 梯度 反 向 传播 


最 大 值 池 化 层 梯度 反 向 传播 类 似 于 ReLU 激活 层 梯度 反 向 传播 。 
ReLU 是 求 max(0, x) 的 偏 导数 ， 最 大 值 池 化 层 是 求 f= max(a, b, c, d) 
的 偏 导 数 ， 其 中 a、b、c 和 4 是 输入 2x2 和 窗口 的 数据 。 该 函数 的 偏 导 
数 很 简单 ， 对 a. b. cL d 中 最 大 值 的 梯度 为 1， 其 他 为 0。 计 算 过 
程 如 下 。 
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根据 定义 ， 对 变量 a 的 偏 导 数 为 : 
[ max(a--da, b, c, d) — max(a, b, c, d) ]/da 


当 a 是 最 大 值 时 , 上 式 变 为 (a+da-a)da=1; 当 a 不 是 最 大 值 时 ， 


假设 此 时 5 是 最 大 值 ， 则 上 式 变 为 : (5-b)/da =0。 所 以 进行 最 大 值 池 
化 层 梯 度 反 向 传播 时 ， 只 需 记 录 输 入 特征 图 的 每 个 局 部 窗口 的 最 大 值 
即 可 。 如 果 该 元 素 是 最 大 值 ， 则 该 位 置 处 的 输出 梯度 等 于 输入 梯度 ， 
否则 为 0。 


在 正 向 计算 中 获得 。 其 中 ，dqaout_aata 是 上 次 梯度 反 向 传播 得 到 的 ， 


首先 ， 定 义 一 些 超 参数 并 随机 生成 一 些 必要 的 数据 ， 这 些 数据 能 


是 输入 梯度 。matric_qdata_max_pos 记录 了 输入 特征 图 中 最 大 值 的 
位 置 ， 尺寸 是 变换 后 的 大 矩阵， 每 行内 有 局 部 窗口 4 个 元 素 ， 它 是 从 
正 向 计算 中 得 到 的 。 相 关 代码 如 下 : 


四 &3 


(batch, in height, in width, in depth) - (8, 32, 48, 16) 
filter size - 2 
filter size2 - filter size*filter size 


stride - 2 
out height = (in height - filter size)//stride + 1 
out width = (in width - filter size)//stride + 1 


out depth = in depth 
out size - out height*out width 


dout data - np.random.randn(batch, out height, out width, 
out, depth) 


matric data max pos - np.random.randn(out size*in depth* 
batch, filter size2) 

matric data max pos = matric data max pos > 0 

matric data not max pos - -matric data max pos 
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din data = np.zeros((batch, in height, in width, in depth), 
dtype = np.float64) 


其 中 ,语句 O 生成 随机 数据 ， 语 句 O 模拟 最 大 值 位 置 ， 语 句 @ 对 
matric_data_max_pos 取 反 ， 即 得 到 非 最 大 值 的 位 置 ， 因 为 非 最 大 
值 位 置 处 的 梯度 为 0。ain_qata 是 输入 特征 图 的 梯度 , 是 需要 计算 的 。 


然后 遍历 每 一 个 特征 图 的 局 部 窗口 , 将 din data 最 大 值 位 置 处 
的 梯度 赋值 为 aout_aata， 将 非 最 大 值 位 置 处 的 梯度 赋值 为 0: 


height ef = in height - filter size + 1 
width ef = in width - filter size + 1 
for i batch in range(batch): 
i batch size - i batch*out size*in depth 
for i h out, i height in zip(range(out, height), range(0, 
height ef, stride)): 
i height size = i batch size + 
i h out*out width*in depth 
for i w dout, i w, i width in zip(range(out, width), 


range(0, in depth*out . 
width, in, depth), 
range(0, width ef, 
stride)): 

md = matric data, not max pos[i. height, size + 


iw : i height size + i w + in depth, : | 
din - din data[i batch, i height : i height 
+ filter size, i width : i width + 
filter size, :] 
(6) dout - dout data[i batch, i h out, i w dout, :] 
for i in range(filter size): 
for j in range(filter size): 
din[i, j, :] -» dout[:] 
din[i, j, :] [md[:, i*filter size + j]] = 0 


€9 € 


在 上 述 代 码 中 , 前 面 的 语句 用 于 遍历 每 个 窗口 , 语句 四 获得 局 部 
窗口 中 (注意 是 包含 整个 深度 维度 ) 非 最 大 值 位 置 的 ma, CE AEE 
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阵 ; 语句 CO 获得 输入 梯度 局 部 窗口 中 的 数据 ( 也 是 整个 深度 维度 ) 
qin， 它 是 三 维和 矩阵 ;语句 © 获得 输出 梯度 局 部 窗口 数据 ( 整个 深度 
维度 ) dout, 它 是 一 维和 矩阵。 然后 对 局 部 窗口 中 每 个 深度 列 进 行 赋值 。 
语句 四 是 din 深度 列 复 制 dout 的 值 ， 语 句 @ 对 非 最 大 值 位 置 的 梯 
度 置 0， 需 要 特别 注意 其 索引 方式 。 


上 面 介绍 了 常规 神经 网 络 和 卷 积 网 络 中 各 种 层 的 梯度 反 向 传播 算 
法 及 代码 ， 和 希望 读者 认真 掌握 。 根 据 链 式 法 则 和 梯度 反 向 传播 原则 ， 
如 果 以 后 碰 到 新 的 网 络 结构 ， 大 家 应 该 能 实现 梯度 反 向 传播 ， 比 如 
Inception 和 ResNet 结构 。 
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训练 前 的 准备 


通过 前 面 两 部 分 的 学 习 ， 我 们 已 经 掌握 了 机 器 学 习 最 常用 的 线性 
模型 、 神 经 网 络 模型 和 卷 积 网 络 模型 ， 以 及 基于 梯度 下 降 法 的 各 种 优 
化 方法 和 梯度 反 向 传播 算法 。 有 了 这 三 方面 的 知识 ， 理 论 上 就 可 以 开 
台 训 练 能 解决 实际 问题 的 模型 了 。 但 在 开始 训练 前 ， 还 有 一 些 细节 问 
题 需要 解决 ， 这 些 问 题 看 起 来 不 起 眼 ， 但 对 最 终 的 训练 结果 有 比较 重 
要 的 影响 ， 和 希望 读者 重视 。 


7.1 中 心 化 和 规范 化 


在 现实 任务 中 ,样本 属性 各 种 各 样 ， 大 小 各 不 相同 ， 如 果 直 接 使 
用 原始 数值 进行 机 器 学 习 ， 效 果 可 能 会 比较 差 ， 甚 至 不 能 进行 有 效 学 
习 ， 所 以 必须 先 对 数据 进行 预 处 理 。 为 了 使 读者 理解 为 什么 需要 数据 
预 处 理 ， 以 及 需要 什么 样 的 预 处 理 ， 本 方 将 采用 二 分 类 的 线性 模型 进 
行 理论 解释 。 线 性 模型 是 神经 网 络 和 卷 积 网 络 模 型 的 基本 构件 ， 所 以 
这 些 理论 解释 同样 适用 于 神经 网 络 和 卷 积 网 络 模型 。 


E 
H 
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7.1.1 利用 线性 模型 推导 中 心 化 


假设 样本 有 3 个 属性 ， 则 二 分 类 的 线性 模型 为 : y = wxw 
wax3tb， 其 中 wi(i = 1,2, 3) 是 权重 ,5 EWE, y 是 模型 输出 。 因 为 要 
得 出 最 优化 模型 ， 所 以 参数 只 有 在 实数 域 取 值 ， 才 能 最 好 地 与 样本 数 
据 一 致 。 如 果 参 数 只 在 有 理 数 或 整数 域 取 值 ， 显 然 没 有 实数 域 好 ， 所 
以 权重 和 偏 置 参 数 都 是 实数 ， 这 样 输出 y 也 是 实数 。 在 进行 样本 预测 
时 ,需要 根据 进行 二 分 类 , 最 合理 的 做 法 是 将 与 某 个 固定 值 比较 ， 
大 于 该 固定 值 ， 则 判断 样本 为 正 类 ， 否 则 为 负 类 。 由 于 y 的 取 值 在 实 
数 域 ， 所 以 该 固定 值 最 合理 的 取 值 是 0。 这 样 所 有 样本 都 与 0 进行 比 
较 ， 正 样本 输出 大 于 0， 负 样本 输出 小 于 0， 当 正 负 样 本 数量 相等 时 
(实际 情况 下 , 大 部 分 是 这 样 ), 则 输出 y 的 期 望 就 是 0。 输出 yy 的 绝对 
值 越 大 ， 表 示 对 样本 分 类 正确 的 信心 就 越 大 。 


如 果 输 出 ?了 期望 为 0， 那么 会 对 变量 x(i= 1,2,3) 提出 要 求 。 因 为 
参数 由 是 固定 值 ， 显 然 每 个 变量 x 都 应 该 是 0 均值 ， 这 样 输出 了 的 期 
望 才能 为 0 (假定 偏 置 为 0 )。 使 变量 0 均值 化 的 预 处 理 过 程 称 为 中 
心 化 ， 它 是 数据 预 处 理 最 常用 的 操作 。 中 心 化 是 每 个 样本 的 特征 属性 
减 去 所 有 样本 〈 正 负 样 本 ) 的 对 应 特征 属性 的 均值 ， 是 逐 属性 操作 。 
代码 如 下 : 


D = 784 # 数据 维度 

N = 128 9 样本 数量 

X = np.random.randn(N, D) 4$ 一 行 一 个 样本 
X -= np.mean(X, axis = 0) 


其 中 ,x 是 所 有 样本 数据 的 矩阵 ， 每 行 一 个 样本 ; np.mean(X, axis 
= 0) 用 于 计算 所 有 样本 中 每 个 属性 的 均值 。 
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7.12 ”利用 属性 同等 重要 性 推导 规范 化 


当 采 用 迭代 法 进行 模型 优化 时 ( 梯度 下 降 法 就 是 一 种 迭代 法 ), 需 
要 对 参数 进行 初始 化 。 假 设 我 们 对 学 习 任 务 一 无 所 知 ， 即 没有 任何 先 
验 知识 ， 不 知道 变量 x; 对 分 类 是 正 相关 还 是 负 相 关 ， 因 此 对 参数 最 合 
理 的 初始 化 是 0。 为 了 打破 对 称 性 ,权重 初始 化 为 均值 0 的 小 随机 数 。 
特别 地 ， 偏 置 b 基本 都 直接 初始 化 0。 


当 采 用 梯度 下 降 法 进行 优化 时 ， 每 个 参数 的 更 新 方式 是 一 致 的 ， 
所 以 我 们 希望 参数 的 最 优 值 范围 大 致 相当 ， 这 样 能 使 所 有 参数 同步 收 
敛 ， 提 高 学 习 效 率 。 而 由 于 wi 的 最 优 值 范围 大 至 相当， 变量 通过 与 
参数 相 乘 影响 输出 ， 所 以 假设 我 们 没有 任何 先 验 知识 ， 只 能 假定 每 个 
变量 区 对 分 类 的 影响 程度 一 致 ， 那 么 必然 要 求 每 个 变量 x 的 取 值 范围 
一 致 。 如 果 某 个 变量 的 取 值 范围 明显 偏 大 ， 会 产生 前 后 矛盾 的 问题 。 
例如 ， 当 xi 的 取 值 范围 是 x 的 10 倍 时 ， 各 丸 的 取 值 范围 一 致 。 假 设 
wi ET wa, HE wx 的 值 是 wa RE 10 信 ， x XE y BOUES E x 
的 10 fi, BI x 是 更 重要 的 影响 因素 。 显 然 这 与 “每 个 变量 x 对 分 类 
的 影响 程度 一 致 ”的 假设 矛盾 ， 所 以 我 们 必然 要 求 每 个 变量 x; 的 取 值 
范围 一 致 ， 这 就 是 规范 化 操作 。 最 常用 的 规范 化 是 除 以 标准 差 ， 这 个 
操作 与 中 心 化 操作 一 样 ， 是 逐 属性 的 ， 标 准 差 是 通过 计算 所 有 样本 得 
到 的 。 注 意 规范 化 之 前 一 定 要 进行 中 心 化 。 代 码 如 下 : 


= 784 
= 128 
= np.random.randn(N, D) 


-- np.mean(X, axis - 0) 


Xox KZU 


/= np.std(X, axis = 0) 
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中 心 化 和 规范 化 的 组 合 操作 就 是 对 随机 变量 的 标准 化 ， 变 为 均值 
为 0， 方差 为 1 的 分 布 。 数 学 公式 为 : 


X= (XY 一 上/ (7.1) 


其 中 /为 均值 ，c 是 标准 差 。 


中 心 化 和 规范 化 组 合 操作 的 另 一 种 常见 方式 是 把 每 个 属性 的 取 值 
都 统一 到 [-1, 1] 这 个 区 间 内 。 这 个 方法 利用 每 个 属性 的 最 大 值 和 最 小 
值 可 以 很 容易 实现 ， 代 码 如 下 : 


D = 784 
N= 128 


X = np.random.randn(N, D) 
0) 


np.min(X, axis - 
np.max(X, axis = 0) 


minX - 


maxx 


(X - minX)/ (maxX - minX) 
2*X - 1 


X 


规范 到 [-1, 1] 的 方法 比较 容易 受到 噪声 或 异常 值 的 影响 ， 因 为 噪 
声 或 异常 值 会 影响 属性 的 最 大 值 或 最 小 值 。 


规范 化 的 假设 认为 每 个 属性 的 重要 程度 一 致 ， 如 果 有 先 验 知识 能 
表明 某 些 属性 更 重要 或 更 不 重要 ， 则 其 规范 化 的 范围 就 要 随 之 做 出 调 
整 , 增 大 或 减 小 其 影响 。 具 体 变 换 到 多 大 范围 是 由 算法 的 超 参数 决定 ， 
需要 利用 大 量 的 计算 资源 不 断 地 试 错 。 所 以 在 实践 中 ， 如 采 没 有 明确 
哪个 属性 特别 重要 或 不 重要 ， 还 是 应 规范 化 到 同一 范围 ， 因 为 之 后 还 
可 以 通过 调整 参数 wi 的 取 值 来 控制 变量 的 影响 程度 , 只 是 此 时 参数 的 
收敛 速度 可 能 不 同步 。 
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7.1.3 中心 化 和 规范 化 的 几何 意义 


中 心 化 的 几何 意义 是 平移 样本 点 云 ， 使 样本 点 云 的 重心 与 原点 重 
合 ， 这 样 分 类 超 平 面 就 在 原点 附近 ， 比 较 容 易学 习 。 如 果 不 进 行 中 心 
化 ,样本 点 云 的 重心 可 能 远离 原点 ,分 类 超 平面 也 可 能 远离 原点 ， 导 
BWE b 的 绝对 值 可 能 远大 于 0。 因为 5 初始 化 为 0, 而 最 优 b 远 离 0， 
所 以 在 使 用 基于 梯度 下 降 法 等 局 部 方法 时 ， 要 学 习 出 如 此 大 的 差 值 是 
很 困难 的 。 


规范 化 的 几何 意义 是 对 点 云 进行 拉 伸 , 使 数据 点 云 完全 处 于 高 维 正 
方形 内 。 它 的 物理 意义 是 去 除 每 个 属性 量 纲 的 影响 ， 例 如 属性 是 质量 ， 
则 取 不 同 单位 时 〈 如 千克 和 毫克 )， 数 值 会 差别 很 大 ， 但 分 类 的 效果 不 
应 受 单位 的 影响 ， 故 必须 去 除 量 纲 的 影响 ， 进 行规 范 化 。 


7.2 PCA 和 白化 


PCA 和 白化 也 是 一 种 常用 的 数据 预 处 理 方法 。 实 际 任务 中 ,变量 
之 间 可 能 会 存在 复杂 的 依赖 关系 ， 这 种 关系 可 能 是 非 线性 或 线性 的 。 
例如 如 增 大 ,她 随 之 增 大 ， 这 表明 这 两 个 变量 存在 正 相 关 。 这 必然 会 
对 权重 wi 和 ws 产生 约束 ,但 优化 算法 难以 处 理 这 种 “隐形 ”约束 。 
所 以 希望 在 优化 之 前 ， 去 除 变 量 之 间 的 相关 性 ,使 学 习 变 得 更 容易 。 
PCA 就 是 一 种 去 除 变量 之 间 的 相关 性 ， 使 之 线性 无 关 的 最 常用 方法 。 
特别 强调 的 是 ，PCA 只 能 去 除 线性 相关 性 ， 不 能 去 除非 线性 相关 性 。 
线性 相关 性 是 指 变 量 之 间 满 足 线性 函数 关系 ， 非 线性 相关 性 是 指 变 量 
之 间 满 足 函 数 关系 ， 但 不 是 线性 函数 。 
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7.2.4. 从 去 除 线性 相关 性 推导 PCA 


先 从 最 简单 的 情况 入 手 ， 假 设 样本 只 有 两 个 属性 x 和 y, RITR 
集 了 一 系列 样本 Co yi)， 把 它们 表示 为 数据 矩阵 D， 其 中 每 行为 一 个 
样本 数据 ， 每 列 为 一 个 属性 取 值 ， 设 两 列 向 量 为 和 了。 如 果 这 两 个 
属性 之 间 存 在 线性 关系 ， 则 它们 可 以 表示 为 y= Kr+b5， 其 中 系数 大 0 
(UR k=0, 那么 这 两 个 属性 线性 无 关 )。 可 以 利用 最 小 二 乘法 进行 线 
性 拟 合 ， 得 到 系数 : 


kem 6, -DD /mY -Os)] (72) 


S cov(x, y) -1/ m (x, -xXy, y) ， 显 然 ， 当 cov, y) = 0 时 , x 和 y 


i=l 


线性 无 关 ; 当 cov, y) > OH], x 和 yy 线性 正 相 关 ; 当 cov(x, y)<0 8f, 
x 和 了 线性 负 相 关 。 因 为 var(x) = cov(x, x) 是 变量 x 的 方差 ， 所 以 称 
cov(x, y) 为 协 方差 。 


现在 解决 了 两 个 变量 线性 无 关 的 度量 ， 即 协 方差 为 0。 那么 ,是 
否 存在 一 个 线性 变换 C, 对 属性 进行 变换 , 使 新 变量 的 协 方差 为 0 呢 ? 
为 了 简化 书写 ， 下 面 假设 已 经 对 属性 进行 了 中 心 化 ， 即 每 个 属性 的 
均值 为 0， 所 以 协 方差 cov(e 妨 =1/m xy, ， 这 个 刚好 是 内 积 ， 


cov(x, y) - Um X! Y. 线性 变换 C 对 数据 矩 阵 D 进行 变换 ， 变 换 后 的 新 
数据 矩阵 为 D'= DC=[DC1, DC;]， 新 的 列 向 量 为 X'-DC,. Y'- DC;. 
其 中 Cl 和 CG 是 C 的 列 向 量 ， 则 新 向 量 的 方差 为 : X''X'- CIIDIDC， 
Y''Y'= CTDTDC,， 协 方差 为 X" Y' = CDDC. 5Ble D'D 是 维度 为 
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2 x2 的 方 阵 ， 维 数 等 于 属性 数量 。 该 矩阵 的 对 角 线 元 素 为 原始 属性 的 
方差 ， 非 对 角 线 元 素 为 协 方差 ， 故 该 矩阵 被 称 为 协 方差 矩阵 ， 因 为 
(DID)T=DID 是 对 称 和 矩阵 。 令 C D'DC,-4A,. C; DIDC;-À,, XWA 
数 分 别 是 两 个 新 属性 的 方差 ， 它 们 大 于 等 于 0。 因 为 新 属性 需 线 性 无 
关 ， 所 以 协 方差 X"Y'- CIDIDC =0。 仔 细 分 析 这 3 个 等 式 ， 可 以 发 
现 向 量 C 和 C 有 正 交 的 感觉 ， 再 结合 和 矩阵 的 特征 向 量 正 交 的 性 质 ， 
就 可 以 求 出 变换 矩阵 C 了 。 如果 把 向 量 C1、C; 与 对 应 的 如 和 罗 看 作协 
方差 矩阵 的 特征 向 量 和 特征 值 ， 即 DDC A,€, D'DC;- 4,0. IRA 
上 面 3 个 等 式 得 CC, = 1, 6€, = 1，C1'C, = 0， 即 要 求 线性 变换 C 
为 正 交 矩阵, 所 以 只 需 把 特征 向 量 正 交 化 就 可 以 了 。 上 面 分 析 过 程 的 样 
本 只 有 两 个 属性 ， 如 果 有 4 个 属性 ， 其 推理 过 程 完 全 一 样 ， 故 不 重复 。 


现在 总 结 一 下 ， 如 何 去 除 样本 属性 之 间 的 线性 相关 性 。 假 设 样本 
有 4 个 属性 ， 我 们 采集 了 个 样本 ， 数 据 矩 阵 为 刀 ， 其 中 每 行 是 一 个 
样本 , 则 D 的 尺寸 为 : nx d。 第 一 步 计算 协 方差 矩阵 COV - D'D, 对 
角 线 元 素 为 属性 的 方差 ， 非 对 角 线 元 素 为 协 方差 。 第 二 步 对 协 方差 矩 
阵 COV 进行 特征 值 分 解 ， 得 到 特征 值 和 对 应 的 特征 向 量 (%, C), Hh 
特征 向 量 需 要 规范 化 ，C;"C;= 1，C; C=0， 即 向 量 长 度 为 1 且 两 两 正 
交 。 第 三 步 利 用 向 量 C, 得 到 新 属性 DC;， 新 属性 的 方差 为 A; (大 于 等 
于 0 )， 协 方差 为 0， 此 时 数据 矩阵 刀 '= DC。 由 于 和 矩阵 CEEE, 
所 以 变换 是 可 闭 的 ， 可 得 忆 = D'C, 


7.2.2 PCA 代码 


实践 中 ， 一 般 用 奇异 值 分 解 代 蔡 特征 值 分 解 ， 以 获得 更 稳定 的 数 
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值 解 和 更 快 的 速度 。 奇 异 值 分 解 的 推导 和 理解 均 涉 及 复杂 的 矩阵 知识 ， 
本 节 直 接 给 出 代码 ， 不 进行 解释 : 


D = 784 

N= 128 

X = np.random.randn(N, D) 
mean = np.mean(X, axis = 0) 
X -- mean 


COV = np.dot(X.T, X)/X.shape[0] 4 协 方差 矩阵 
(D C,S,V = np.linalg.svd(COV) 
© X decor = np.dot(X, C) 


其 中 , x decor 就 是 去 除 线性 相关 之 后 的 数据 和 矩阵, 新 属性 之 间 不 存 
在 线性 相关 ， 即 x decor 的 协 方差 矩阵 为 对 角 和 矩阵 。X_daecor 的 尺 
SEHR x AE, 每 行 是 一 个 样本 , 每 列 是 所 有 样本 的 新 属性 值 。 x_decor 
是 中 心 化 的 ， 即 每 个 属性 的 均值 为 0。 语句 @ 进行 奇异 值 分 解 ， 得 到 
正 交 矩阵 C= (€i, C2,…, Ca) 和 特征 值 向 量 S= Qu, o, Ao Hn 
5 中 的 特征 值 是 降序 排列 的 ， 所 以 x aecor 中 第 一 个 属性 的 方差 最 大 ， 
后 面 依次 减 小 。 


7.2.20 PCA 降 维 


如 果 协 方差 矩阵 的 某 个 特征 值 为 0, 说 明 该 属性 的 方差 为 0, 属性 
值 是 恒定 值 ， 即 各 个 样本 在 该 属性 上 没有 任何 差别 ， 那 么 该 属性 对 分 
类 没有 任何 价值 ， 可 以 去 掉 该 属性 ， 这 就 是 PCA 降 维 原理 。 实 际 中 ， 
由 于 存在 数值 计算 误差 ， 方 差 很 小 的 新 属性 都 可 以 去 掉 ， 留 下 方差 较 
大 的 新 属性 ， 实 现 数据 降 维 。 由 于 均值 为 0、 方 差 很 小 的 属性 的 数值 
都 十 分 接近 0， 故 可 近似 为 0， 因此 可 以 去 除 该 属性 。 当 方差 为 0 时 ， 
BI D'DC,-0, 其 中 特征 向 量 C; 不 为 0, WERE DD 的 秩 小 于 d, 各 个 
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列 向 量 存 在 线性 相关 。 


对 于 上 一 小 节 的 程序 ， 假 设 希 望 留 下 127 个 属性 ， 去 掉 剩 下 的 
784 - 127 = 657 个 属性 ， 只 和 需 加 上 代码 x_decor_reduce = X decor 
[:，:127] ， 即 留 下 方差 最 大 的 127 个 属性 。 实 际 中 ， 不 需要 先 计算 
X decor 再 降 维 , 可 以 直接 得 到 降 维 后 的 Xx_decor_reduce, 即 只 需 
把 语句 OHA x decor reduce = np.dot(X, C[:，:127])。 


数据 降 维 也 实现 了 数据 压缩 ， 原 来 样本 需要 4 个 属性 描述 ， 现 在 
只 需 更 少 的 属性 描述 ， 存 储量 减 小 了 。 由 于 变换 是 可 逆 的 ， 因 此 降 维 
后 的 数据 能 恢复 到 原始 数据 。 代 码 如 下 : 


X decor reduce = np.dot(X, C[:, :127]) 

zero matic - np.zeros( (X.shape[0], X.shape[1]-127) ) 

X decor reduce zero - np.hstack( (X decor reduce, 
zero matic) ) 

X denoise - np.dot(X decor reduce zero, C.T) 


X denoise «- mean 


uH O66 G0 


Up, W OD 进行 降 维 ， 语 名 @ 和 语句 CO 去 除 近 似 0 的 属性 数值 ， 
语句 则 进行 逆 变 换 , 语句 名 加 上 原 均 值 , 得 到 降 维 后 重 构 的 数据 矩阵 。 


对 于 一 个 实际 任务 , 留 下 的 属性 个 数 是 算法 超 参 数 。 属 性 取得 少 ， 
可 以 减 小 样本 数据 大 小 ， 节 约 存储 空间 ， 同 时 提高 训练 和 预测 速度 。 
但 缺点 是 会 损失 样本 中 的 一 些 有 用 信息 ， 这 部 分 信息 虽 少 ， 但 对 学 习 
效果 也 是 有 影响 的 。 注 意 ， 方 差 小 的 属性 也 可 能 含有 样本 差异 的 重要 
言 息 ， 因 为 计算 方差 是 采用 原始 属性 数值 ， 会 受 所 用 单位 影响 ， 比 如 
导 性 采用 厘米 作为 单位 ， 方 差 为 1， 如 果 换 成 米 为 单位 ， 则 方差 变 为 
10**(-4), ， 缩 小 了 很 多 倍 。 因 此 ， 在 实践 中 ， 只 有 样本 属性 特别 多 ， 
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或 者 属性 之 间 存 在 明显 的 线性 相关 时 ， 才 采用 PCA 降 维 。 


具体 降 维 时 ， 一 般 采 用 经 验 法 则 。 一 是 观察 法 ， 即 画 出 方差 5 的 
曲线 ， 当 曲线 十 分 接近 x 轴 时 ， 取 此 点 之 前 的 属性 。 如 果 运 行 上 面 的 
程序 ， 会 发 现 第 128 个 方差 十 分 小 ， 所 以 只 需 留 下 前 127 个 属性 。 请 
读者 思考 为 什么 是 前 127 个 方差 大 。 


另 一 种 方法 是 比例 法 ， 即 降 维 后 的 数据 信息 量 占 原始 信息 量 的 比 
例 要 大 于 阔 值 (如 95% )， 如 何 衡量 数据 信息 量 呢 ? 这 时 可 以 利用 方 
差 衡量 ， 属 性 方差 越 大 表示 该 属性 的 信息 量 越 大 。 具 体 做 法 是 : 计算 
前 4' 个 方差 之 和 占 总 方差 之 和 的 比例 ， 取 最 小 的 4' 使 比例 大 于 9596, 
则 保留 前 4 个 属性 即 可 。 


换 一 个 角度 考虑 ， 属 性 的 方差 很 小 ， 一 般 是 受 噪声 影响 ,否则 理 
论 上 应 该 是 0， 所 以 去 除 方差 小 的 属性 ， 是 一 种 数据 去 噪 技术 。 


7.24 ”PCA 的 几何 意义 


PCA 的 几何 意义 是 : 先 对 数据 点 云 进行 平移 ( 减 去 均值 )， 使 重 
心 和 原点 重合 ， 然 后 旋转 点 云 ( 乘 以 正 交 矩阵), f x decor “NE” 


到 尽 可 能 低 的 维度 空间 内 。 比 如 : 三 维 空 间 中 两 个 数据 点 组 成 的 点 云 ， 
因为 两 点 能 构成 一 个 平面 ， 所 以 首先 平移 这 两 点 ， 使 其 中 点 与 原点 重 


合 ， 然 后 旋转 这 两 点 构成 的 任 一 平面 ， 使 平面 处 于 水 平面 内 ， 这 样 这 
两 点 就 处 于 二 维 空间 内 ， 而 不 是 三 维 空间 。 再 进一步 ， 可 以 在 水 平面 
内 旋转 这 两 点 ,使 之 与 x 轴 重 合 ， 内 骨 到 一 维 空间 。 同 理 ， 只 要 三 维 
空间 的 点 云 位 于 一 个 平面 内 ， 总 是 能 通过 平移 和 旋转 操作 ， 使 之 位 于 
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水 平面 内 。 点 云 内 艇 到 低 维 空间 会 带 来 一 个 好 处 : 可 以 用 更 少 的 坐标 
来 表示 点 。 如 上 面 的 例子 ， 原 始 的 点 位 于 三 维 空间 ， 则 需要 3 个 分 量 
(x, y, z) 表示; 内 髓 到 二 维 空 间 ， 就 只 需 用 Qo y) 表示 ; 最 后 到 一 维 空 
间 ， 仅 需 x 表 示 了 。 这 就 是 PCA 的 降 维 。 


7.25 白化 


注意 ， PCA 只 是 对 数据 点 云 进 行 了 平移 和 旋转 , 数据 点 云 的 形状 
并 没有 改变 。 如 果 需 要 对 属性 进行 规范 化 ( 去除 单 位 量 纲 的 影响 ), 则 
点 云 需要 改变 形状 ， 这 时 可 以 利用 属性 标准 差 进行 规范 化 ， 即 属性 数 
值 除 以 对 应 的 标准 差 即 可 ， 其 代码 如 下 : 


X white = X decor/np.sqrt(S + 10**(-5)) 


这 种 规范 化 也 称 为 白化 ， 几 何 意义 是 使 每 个 属性 的 方差 相同 ， 数 据点 
云 完 全 处 于 高 维 球 内 。x_white 的 协 方差 矩阵 为 单位 矩阵, Xx_white 
变 成 近似 独立 同 分 布 (ii.d ) 的 数据 ， 即 每 个 属性 都 是 均值 为 0、 方 差 
为 1 的 分 布 (近似 同 分 布 ) 任何 属性 之 间 的 协 方差 为 0, 没有 线性 相 
ATE ( 近似 独立 )。 独 立 同 分 布 的 数据 十 分 有 利于 机 器 学 习 ， 可 以 使 
优化 算法 更 快 找到 更 好 的 参数 解 。 特 别 强调 下 ， 规 范 化 后 的 数据 是 近 
似 同 分 布 但 没有 去 除 线性 相关 性 〈 无 旋转 操作 )。 


分 母 中 加 小 常数 10** (-5) ， 是 为 了 防止 被 除数 为 0。 因 为 当 协 
方差 矩阵 不 满 秩 时 , 存在 为 0 的 方差 。 白 化 最 大 的 缺点 是 会 扩大 噪声 ， 
因为 它 把 所 有 属性 的 标准 差 都 拉 伸 为 1, 包括 方差 很 小 的 属性 ( 很 可 
能 是 噪声 引起 的 )。 小 常数 能 达到 去 噪 的 目的 ， 因 为 常数 越 大 去 噪 能 
力 越 强 ， 但 数据 也 会 被 过 度 平 滑 。 所 以 ， 最 优 小 常数 需要 交叉 验证 。 
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7.3 ” 卷 积 网 络 在 进行 图 像 分 类 时 如 何 预 处 理 


数据 预 处 理 是 十 分 重要 的 步 又， 它 能 加 快 学 习 算 法 的 收敛 速度 ， 


并 且 收 敛 到 更 优 的 点 。 


对 于 采用 卷 积 网 络 进行 图 像 分 类 的 任务 来 说 ， 由 于 图 像 像 素 已 经 


规范 化 到 [0,255], 输出 的 分 值 向 量 可 以 不 是 0 均值 的 ， 所 以 不 会 使 用 
PCA 和 白化 。 对 图 像 的 预 处 理 很 简单 : 或 者 规范 化 到 [0, 1]， 只 需 每 个 
像素 除 以 255; 或 者 规范 化 到 [-1, 1]， 只 需 每 个 像素 先 减 去 128, Pi 
以 128。 当 训练 集 图 像 足够 多 、 分 布 足够 广 时 ， 每 个 像素 的 均值 会 趋 
yr 128， 所 以 在 实际 中 心 化 时 ,并 不 需要 求 像素 的 均值 , 可 以 用 128 代 
替 实 际 均值 。 目 前 在 实践 中 ， 采 用 IMAGENET 数据 库 时 ， 精 确 的 值 


XE MI 


EAN BGR - [103.062623801,115.902882574,123.151630838], 


它们 都 比较 接近 128， 其 中 红色 分 量 均 值 最 接近 128 ， 蓝 色 最 小 。 


样本 一 般 划 分 为 训练 集 、 验 证 集 和 测试 集 3 个 子 集 ， 数 据 预 处 理 


中 需要 的 一 些 统计 数据 ( 比如 均值 、 方 差 和 协 方差 矩阵 ) 只 能 采用 训 
练 集 进行 计算 ,然后 利用 这 些 统计 数据 对 验证 集 和 测试 集 进 行 预 处 理 。 
不 能 先 利用 所 有 样本 进行 预 处 理 后 ， 再 划分 为 3 个 子 集 。 因 为 在 训练 
模型 时 ， 只 能 看 到 训练 集 ， 即 只 能 用 训练 集 的 数据 提取 统计 信息 ， 验 
证 集 和 测试 集 在 训练 模型 的 时 候 是 不 可 见 的 ， 所 以 不 可 能 利用 这 些 训 
练 时 “不 存在 ”的 样本 提取 统计 信息 ,然后 再 利用 这 些 信息 进行 学 习 。 
以 上 是 实践 中 比较 容易 犯 的 错误 ， 需 要 读者 注意 。 
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7.4 BN 


数据 预 处 理 是 指 对 神经 网 络 的 输入 层 数据 进行 逐 属性 规范 化 的 过 
TE, 数据 经 过 网 络 的 多 层 变 换 后 ( 其 中 包括 非 线 性 变换 ), 不 再 是 规范 
化 的 ， 即 均值 不 为 0, 方差 不 是 1。 比如 ,经 过 ReLU 变换 后 , 输出 属 
性 都 大 于 或 等 于 0, 均值 肯 定 会 大 于 0, 这 样 对 于 网 络 中 的 隐 含 层 来 说 ， 
学 习 就 变 困难 了 。 那么 , 能 不 能 对 任意 隐 含 层 的 输入 数据 进行 规范 化 ， 
提高 收敛 速度 和 学 习 效果 呢 ? BN (Batch Normalization, ， 批 量规 范 化 ) 
就 是 一 种 著名 的 对 隐 含 层 输入 数据 进行 规范 化 的 方法 。 


7.4.1 BN 前 向 计算 


BN 的 操作 方式 和 数据 预 处 理 中 的 中 心 化 和 规范 化 操作 一 样 ， 都 
是 逐 属性 进行 的 , 先 减 去 均值 , 再 除 以 标准 差 ,公式 为 : $= (x-4)/o 。 
这 里 的 均值 和 标准 差 是 怎么 计算 的 呢 ? 数 据 预 处 理 时 的 均值 和 标准 差 
是 整个 训练 集 的 均值 和 标准 差 ， 但 是 对 于 BN 而 言 ， 不 可 能 得 到 整个 
样本 集 的 均值 和 标准 差 ， 只 能 退 而 求 其 次 ， 采 用 批量 的 均值 和 标准 差 
( 即 在 使 用 批量 梯度 下 降 法 时 ， 每 次 迭代 的 样本 子 集 )， 详 见 5.1 节 。 
经 过 BN 后 , 每 个 隐 含 层 的 输出 数据 都 规范 成 均值 为 0、 方 差 为 1 的 分 
布 ， 但 同时 会 带 来 一 个 缺点 : 网 络 的 表达 能 力 受到 限制 。 因 为 不 管 网 
络 前 面 的 层 对 输入 数据 进行 怎样 的 变换 ， 最 后 都 变 为 均值 为 0、 方 差 
为 1 的 分 布 ， 这 显然 不 合理 ， 我 们 希望 不 同 的 层 能 学 到 不 同 的 均值 和 
方差 ， 以 适应 网 络 的 变化 。 因 此 ，BN 引入 两 个 可 学 习 的 参数 y 和 p 
来 学 习 标准 差 和 均值 。 最 终 ，BN 公式 为 : 
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X-(x-gu)!o 


73 
y-yt-B S 


7 初始 化 为 1, 8 初始 化 为 0。 这 样 BN 层 输出 数据 的 均值 为 B. 标 
准 差 为 »， 与 网 络 前 面 的 层 无 关 ， 减 小 了 网 络 中 各 层 的 类 合 ， 有 利于 
学 习 。 而 且 y 和 B 是 可 学 习 的 ,增加 了 网 络 的 自 适 应 性 。 因 此 ， 增 加 
BN 层 的 网 络 能 极 大 地 提高 收敛 速度 。 代 码 如 下 : 


D = 784 # 特征 维度 
batch = 32 # 批量 数 
BN. EPSILON = 10**(-8) 
beta - np.zeros(D) 
gamma = np.ones (D) 


(36 


X batch = 0.1*np.random.randn(batch, D) 


mu - np.mean(X batch, axis 
var - np.var(X batch, axis 


0) 
0) 


Wu og 


X batch -- mu 
X batch /= np.sqrt(var + BN EPSILON) 


G) v = gamma*X batch + beta 


语句 CD 和 @ 用 于 初始 化 参数 ， 这 里 beta 初始 化 为 0，gamma 
初始 化 为 1， 它们 是 逐 属 性 的 。 输 入 数据 矩阵 X_batch 是 批量 数据 ， 
每 行 一 个 样本 , 每 列 一 个 属性 数值 。 计 算 每 个 属性 的 均值 mu 和 方差 var， 
进行 标准 化 后 , 语句 O 进行 再 尺度 化 ,得 到 输出 数据 Y。 注 意 Y 是 逐 
盟 性 的 ， 加 小 常数 BN_EPSILON 是 防止 除数 为 0。 


7.4.0 BN 层 的 位 置 


BN 层 通 常 位 于 非 线性 激活 层 之 前 、 全 连接 层 之 后 ， 注 意 必须 在 
激活 前 对 数据 进行 规范 化 。 加 入 BN 层 的 典型 网 络 结构 如 下 : 


138 | 卷 积 神经 网 络 的 Python 实现 


X=UW 
Y = BN(X; y,f) (7.4) 
Z-f(Y) 


其 中 U 是 输入 数据 。 因 为 BN 层 中 的 8 起 到 偏 置 的 作用 ， 所 以 全 连 
接 层 中 不 再 需要 偏 置 参数 。X 是 全 连接 层 的 输出 ,也 是 BN 层 的 输入 ， 
了 是 BN 层 的 输出 ， 最 后 进行 非 线性 激活 ， 得 到 输出 Zo 


7.4.3 BN 层 的 理论 解释 


BN 层 最 显著 的 效果 是 收敛 速度 得 到 了 极 大 提高 ， 比 如 14 倍 的 提 
速 , 同时 能 提高 学 习 效果 , 也 具有 一 定 的 正则 化 作用 。 所 以 增加 了 BN 
层 后 ， 可 以 设置 更 大 的 学 习 率 , 减 小 L2 正则 化 系数 ， 加 快 学 习 率 衰 


为 什么 BN 层 有 这 些 效果 呢 ? 读者 要 充分 理解 其 中 道理 ， 需 深刻 
掌握 22 节 和 6.3 节 的 内 容 。 简 而 言 之 , 第 一 ， 如果 网 络 的 权重 都 增加 
4(4>1) 倍 ， 由 于 损失 对 权重 尺度 不 具有 不 变性 ,损失 会 变 小 ， 这 会 增 
加 网 络 学 习 的 难度 。 第 二 , 损失 对 权重 的 梯度 与 权重 大 小 成 正比 , 这样 
大 权重 的 更 新 量 大 ， 容 易 导 臻 其 振荡 ， 不 容易 收敛 。BN 层 刚 好 可 以 克 
服 这 两 点 。 首 先 证 明 BN 层 具 有 权重 太 度 不 变性 : BN(XW) - BN(X()), 
即 权重 改变 1 倍 , 不 会 影响 其 输出 , 这 样 最 终 的 损失 值 也 不 会 受到 影响 。 
证 明 很 简单 ， 因 为 在 权重 改变 时 ， 对 应 的 均值 和 标准 差 均 等 比例 改变 : 


BNax a) -y ŽO- g 
T (7.5) 


_ „OXW - Au) 


dz t B-BN(XW) 
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(AW) 


OBN(X(AW)) _ (7p) LOBNQO) _ py BNW) o 
ow 


o(AW) 1 oW 


权重 更 新 量 与 权重 的 尺度 4 无 关 ， 不 会 引起 大 权重 的 振荡 。 


由 于 BN 层 具 有 上 面 两 个 性 质 ， 所 以 对 权重 的 初始 化 不 是 特别 敏 
感 ， 要 求 就 不 是 那么 高 了 。 


7.4.4 BN 层 在 实践 中 的 注意 事项 


BN 层 在 计算 时 需要 用 到 批量 数据 的 均值 和 方差 等 统计 信息 , PH 
论 上 它们 是 全 体 样 本 统计 信息 的 无 偏 估 计 。 但 由 于 每 次 批量 的 不 同 
导致 这 些 信息 波动 较 大 ， 所 以 实践 中 批量 大 小 不 能 太 小 ， 一 般 要 大 
于 32。 


模型 测试 时 , 一般 一 次 只 测试 一 个 样本 , 这 时 批量 为 1, 此 时 BN 
层 的 均值 和 方差 如 何 计算 呢 ? 解决 办 法 很 简单 ， 对 训练 过 程 中 所 有 批 
量 的 均值 和 方差 取 移动 平均 ， 采 用 这 些 移动 平均 值 作为 模型 测试 时 的 
均值 和 方差 .公式 如 下 : 


variable = variable * decay + value * (1 - decay) 


其 中 , value 是 当前 批量 的 统计 信息 ( 均值 或 方差 ), variable 是 移 
动 平均 ( 如 果 是 mean， 则 初始 化 为 0，var 则 初始 化 为 1 )，decay 是 
衰减 指数 ， 取 值 十 分 接近 1， 常 采用 0.9、0.99 或 0.999。 
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7.4.5 BN 层 的 梯度 反 向 传播 


BN 层 是 可 微 函数 ， 所 以 可 以 采用 梯度 下 降 法 进行 优化 ， 采 用 链 


式 法 则 计算 梯度 。 为 了 方便 读 考 查阅， 下面 再 次 把 前 向 代码 列 出 : 


e» 6 € (3 O 


D- 784 

batch e.32 

decay = 0.997 

BN EPSILON - 10**(-8) 

beta - np.zeros(D) 

gamma - np.ones (D) 

X batch - np.random.randn(batch, D) 


mu - np.mean(X batch, axis - 0) 
0) 
std - np.sqrt(var « BN EPSILON) 
X batch hat - (X batch - mu)/std 
Y = gamma*X batch hat + beta 


var - np.var(X batch, axis 


前 向 计算 是 已 知 输入 X_batch， 求 输出 v; 反 向 传播 是 已 知 av, 


求 dX batch, dgamma 和 dbeta， 这 是 一 个 十 分 好 的 练习 链 式 法 则 
的 例子 ， 请 读者 仔细 人 研读 : 


dY = np.random.randn(batch, D) # 和 Y 的 形状 一 致 
# 反 向 传播 语句 @ 

dX batch hat = gamma*dY 

dbeta = np.sum(dY, axis = 0) 

dgamma - np.sum(X batch hat*dY, axis - 0) 


t 反 向 传播 语句 四 
dX batch = dX batch hat/std 


dmu = -np.sum(dX batch hat, axis = 0)/std 
dstd = -1/(std*std) * np.sum((X batch - mu)*dàX batch hat, 
axis - 0) 


# 反 向 传播 语句 加 ) 
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dvar - 1/2*(var**(-0.5))*dstd 


# 反 向 传播 语句 @ 
dX batch += 2*(X batch - mu)/batch * dvar 


* E 44638 6) D 
dX batch «- dmu/batch 


在 进行 反 向 传播 时 ， 一 定 要 注意 广播 机 制 和 ax baccn 的 加 号 。 


7.4.6 BN 层 的 地 位 探讨 
有 的 文章 把 BN 层 作为 网 络 的 基础 构件 ， 和 全 连接 层 、 


非 线性 激 


活 层 的 地 位 一 样 , 我 认为 这 明显 抬 高 了 BN 层 的 地 位 。BN 层 是 对 输入 
数据 进行 线性 变换 , 前 向 代码 的 语句 中 和 语句 O 清晰 地 展示 了 这 点 ， 


IIR 


所 以 它 完 全 可 以 并 入 全 连接 层 ， 并 不 能 作为 一 个 基础 的 组 成 部 分 。 把 
BN 层 看 作 一 种 辅助 优化 算法 的 手段 更 合适 ， 特 别 是 针对 梯度 下 降 法 ， 

是 一 种 自 适应 的 重新 参数 化 方法 。 在 深度 学 习 三 巨头 之 一 Yoshua Bengio 
巨著 《深度 学 习 》 中 ， 就 把 BN 层 作为 一 种 优化 技巧 。 并 且 ， 目 前 也 


发 展 了 很 多 类 似 BN 的 优化 算法 ,如 横向 规范 化 ( Layer Normalization )、 
权重 规范 化 ( Weight Normalization )、 余弦 规范 化 ( Cosine Normalization ) 
等 ， 它 们 都 是 一 种 优化 技巧 。 但 是 把 BN 看 作 一 个 层 ， 有 利于 理解 和 


7.4.7 将 BN 层 应 用 于 卷 积 网 络 
上 面 介绍 的 都 是 将 BN 层 应 用 于 全 连接 层 ， 而 将 其 应 月 


络 时 ， 本质 和 全 连接 层 是 一 样 的 。4.2.5 节 展 示 了 通过 对 卷 和 


HT AERA 
R PJER SB 
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阵 化 ， 卷 积 层 变 成 了 全 连接 层 ， 即 : 


U nario = matric(U) 
X x U mari K 

Y - BN(X; y, p) 
Z= f(Y) 


(7.7) 


输入 AD 特征 图 U, 矩阵 化 得 到 和 矩阵 Dearie， 后 面 和 全 连接 层 计 算 
一 模 一 样 ， 即 矩阵 相 乘 ，BN ( 批量 规范 化 ) 和 非 线性 激活 。 


上 面 通过 公式 说 明了 BN 层 如 何 应 用 于 卷 积 网 络 ， 其 物理 意义 是 
卷 积 网 络 采用 了 参数 共享 技术 ， 所 以 希望 一 个 输出 2D 特征 图 也 要 采 
用 相同 的 规范 化 ， 即 把 它 看 作 一 个 属性 。 变 量 关 的 列 癌 量 刚好 是 一 个 
输出 2D 特征 图 ( 包含 批量 所 有 样本 )， 所 以 对 头 进 行 批量 规范 化 ， 即 
对 XX 的 列 向 量 采用 相同 的 规范 化 ， 能 满足 要 求 。 总 之 ,一 个 输出 2D 
特征 图 只 需 一 对 (y, p) 参 数 ， 而 不 是 一 个 神经 元 需要 一 对 参数 ( 如 常规 
神经 网 络 那 样 )。 


7.5 数据 扩 增 


深度 学 习 的 成 功 ( 如 卷 积 网 络 ) 归功 于 3 个 方面 : 学 习 模型 、 大 
数据 和 强大 的 计算 资源 。 其 中 大 数据 功 不 可 没 ， 甚 至 比 学 习 模 型 还 重 
要 。 在 机 噩 学 习 领 域 ， 只 要 拥有 足够 好 的 数据 集 ， 模 型 可 以 差 些 ， 所 
以 在 实践 中 建立 好 的 训练 集 占 用 了 大 量 精力 。 好 的 数据 集 要 求 样本 数 
量 巨 大 ， 尽 可 能 覆盖 整个 分 布 空间 。 这 是 深度 网 络 巨 大 的 参数 数量 所 


要 求 的 ， 如 果 训 练 数据 过 少 ， 则 很 容易 发 生 过 拟 合 。 著 名 物理 学 家 费 
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米 兽 说 :“ 我 记得 我 的 朋友 约翰 ' 冯 ' 诺 依 曼 曾 经 说 过 , 用 4 个 参数 可 
以 拟 合 出 一 头 大 象 , 而 用 5 个 参数 可 以 让 它 的 鼻子 摆动 。 ”这 名 名 言 是 
指 : 即使 复杂 模型 很 好 地 拟 合 了 数据 集 ， 也 不 应 该 感到 震惊 ， 因 为 只 
要 有 足够 的 参数 ， 就 可 以 拟 合 任意 数据 集 。 


具体 到 图 像 分 类 任务 ， 正 如 第 1 章 所 指出 的 ， 图 像 分 类 中 面临 的 
困难 主要 是 由 图 像 的 几 个 不 变性 引起 的 : 平移 、 旋 转 、 镜 像 、 尺 度 、 
色彩 和 形变 等 。 比 如 ， 色 彩 不 变性 指 物体 不 会 因为 颜色 的 改变 而 变 为 
不 同类 物体 。 根 据 这 些 不 变性 ， 我 们 可 以 人 为 增加 样本 数量 来 减 小 过 
拟 合 ， 即 通过 图 像 处 理 技术 来 模拟 这 些 不 变性 ， 使 一 个 样本 变 为 多 个 
样本 。 


常用 的 数据 扩 增 技术 包括 对 图 像 进行 平移 、 旋 转 、 左 右 翻 转 来 分 
别 实现 平移 、 旋 转 和 镜像 不 变性 ; 进行 随机 裁剪 和 缩放 实现 尺度 不 变 
TE; 进行 仿 射 变换 和 弹性 变形 实现 形变 不 变性 ; 进行 模糊 、 加 噪 、 
PCA Jittering 和 Color Jittering 实现 色彩 不 变性 。 由 于 这 些 技术 涉及 很 
多 图 像 处 理 知识 并 且 工 程 化 特征 明显 ， 本 书 不 打算 展开 论述 ， 读 者 可 
以 查阅 相关 资料 进行 研究 。 


如 果 把 样本 看 作 高 维 空间 的 点 ， 那 么 对 样本 做 数据 扩 增 ， 就 是 在 
样本 点 的 “ 邻 域 ”内 生成 新 的 样本 点 ,达到 增加 样本 数量 的 目的 。“ 邻 
域 ”的 概念 在 高 维 空间 和 低 维 空间 不 同 ,“ 邻 域 ” 不 一 定 是 指 欧式 距离 
近 ， 而 是 “语义 ”距离 近 。 由 于 数据 扩 增 的 样本 点 都 位 于 “ 邻 域 ”内 ， 
所 以 样本 点 云 的 覆盖 范围 并 没有 增 大 多 少 。 在 实践 中 ， 如 果 数 据 扩 增 
后 ， 模 型 的 性 能 还 没有 达到 要 求 ， 仍 然 必 须 通过 采集 新 样本 ， 使 样本 
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点 云 的 覆盖 范围 增 大 。 


再 次 强调 下 ， 数 据 扩 增 技术 一 般 只 在 模型 参数 数量 巨大 ， 而 样本 
数量 有 限 的 情况 下 使 用 ， 特 别 是 在 深度 学 习 中 用 来 防止 过 拟 合 。 同 时 
要 有 有 效 的 技术 手段 来 实现 数据 扩 增 ， 比 如 图 像 中 的 不 变性 。 


7.6 梯度 检查 


利用 梯度 下 降 法 进行 优化 时 ， 需 要 采用 链 式 法 则 计算 损失 函数 对 
参数 的 梯度 ， 这 是 一 个 十 分 容易 出 错 的 地 方 ， 所 以 必须 对 梯度 计算 进 
行 检查 ， 以 确保 正确 。 梯 度 检 查 的 总 原则 是 比较 数值 梯度 和 解析 梯度 
值 是 否 一 致 ， 其 中 解析 梯度 值 是 采用 链 式 法 则 计算 的 梯度 值 ， 数 值 梯 
度 是 采用 梯度 定义 计算 的 梯度 值 。 


假设 我 们 需要 对 参数 w( 标量 ) 的 梯度 进行 检查 ,损失 函数 为 fw)， 
数值 梯度 定义 : 


gi -LODA 


其 中 是 步 长 ,是 小 常数 ,实践 中 常 取 10** (-5) 。 计 算数 值 梯度 时 ， 
需要 进行 两 次 前 向 计算 ,效率 十 分 低下 。 由 于 定义 是 一 阶 收敛 ,计算 
精度 低 ， 因 此 实际 中 采用 中 心 差分 法 计算 梯度 : 


fw h)- fwv-h) 
2h 


了 
办 


这 是 二 阶 收敛 , 精度 高 。 利用 函数 的 泰勒 展开 式 进 行 证 明 , 如 下 : 
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,_ f(w+ 2 -f(w) (Of nn QUE FOU. ue OCR 


fwth) 2 f(w)* f'(w)h 0.5 f"(w)i? - OQ) 
f(w-h) = f(w)- f'Qw)h 0.5 f"(w)i? +0) 
f= fv og 


下 面 列 出 一 些 注意 事项 。 


O 使 用 很 少 的 样本 进行 计算 。 当 采用 批量 样本 计算 梯度 时 ， 批 量 

应 取 2 到 3, 这 样 能 保证 计算 精度 更 高 , 同时 提高 梯度 检查 效率 。 

a 注意 正则 化 损失 。 当 正则 化 ( 范 数 梯度 很 容易 计算 ， 不 容易 出 
错 ) 损失 比例 较 大 时 ,梯度 可 能 主要 由 正则 化 损失 主导 ,数据 
损失 即使 有 错 ， 也 不 容易 被 发 现 。 所 以 刚 开始 关闭 正则 化 ， 只 

使 用 数据 损失 进行 梯度 检查 ， 然 后 再 慢 慢 增 大 正则 化 强度 ， 同 
时 检查 正则 化 和 数据 损失 。 

口 关闭 模型 中 的 随机 成 分 ， 如 dropout。 

a 关闭 程序 中 参数 更 新 代码 ， 计 算数 值 梯度 时 ， 两 次 前 向 计算 要 

采用 相同 的 样本 数据 。 

口 采用 双 精 度 浮 点 数 进行 计算 。 

口 对 模型 所 有 层 参 数 进 行 梯度 检查 ， 注 意 权 重 和 偏 置 要 分 开 检 

查 ， 因 为 偏 置 的 梯度 计算 程序 和 权重 不 同 。 

O 样本 数据 最 好 采用 标准 正 态 随机 数 进 行 模拟 ,这样 计算 的 梯度 

精度 较 高 。 

Q 确保 梯度 值 不 能 过 分 小 , 如 果 f, E 10** (-5) 量 级 以 下 ,可 以 

通过 增 大 权重 初始 化 时 的 方差 或 样本 方差 (采用 标准 正 态 随 机 

数 进 行 模拟 时 )， 从 而 使 所 在 10** (-3) 量 级 。 
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口 采用 相对 误差 来 衡量 一 致 性 ， 假 设 太 是 数值 梯度 ， 大 是 解析 
梯度 ， 则 采用 指标 : EI -Al max IAN, 24 
指标 小 于 10** (-7) 时 ， 说 明 梯 度 计算 正确 。 

口 最 后 ， 偏 置 初始 化 为 小 的 正常 数 ( 如 0.1 )， 使 ReLU 处 于 激活 


状态 。 


7.7 初始 损失 值 检 查 


梯度 检查 即使 正确 ， 也 不 能 说 明代 码 正确 实现 了 模型 ， 因 为 梯度 
检查 只 是 验证 了 链 式 法 则 正确 计算 了 损失 函数 的 梯度 而 已 。 模 型 对 不 
对 ， 还 需要 进一步 检查 。 最 简单 的 检查 方法 是 采用 小 的 权重 对 模型 进 
行 初始 化 ， 关 闭 正则 化 ， 只 检查 数据 损失 ， 此 时 样本 数据 最 好 采用 标 
准 正 态 随机 数 进行 模拟 。 例 如 ， 如 果 样 本 有 10 类， 采用 softmax 损失 
函数 ， 则 初始 数据 损失 应 为 2.302。 因 为 模型 是 随机 初始 化 的 , 所 以 样 
本 属于 哪个 类 别 的 概率 期 望都 是 110， 则 损失 为 -log(1/10) = 2.302. 
如 果 初 始 损失 值 不 正确 ， 则 把 权重 的 方差 变 小 ， 如 果 仍 不 对 ， 则 可 能 
是 程序 内 部 出 错 了 。 


7.8 过 拟 合 微小 数据 子 集 


最 后 也 是 最 重要 的 : 在 对 整个 训练 集训 练 之 前 ， 首 先 对 微小 数据 
子 集 ( 比如 每 类 2 到 4 个 样本 ) 进行 训练 , 争取 获得 很 小 的 损失 值 (发 
生 过 拟 合 ), 此 时 也 要 关闭 正则 化 。 如 果 没 有 获得 很 小 的 损失 值 , 则 最 
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好 不 要 对 整个 训练 集 进行 训练 。 即 使 模型 完全 拟 合 了 微小 数据 子 集 ， 
也 不 能 保证 程序 一 定 正 确 。 因 为 模型 相对 于 微小 子 集 容 量 过 大 ， 所 以 
当 程序 没有 正确 实现 时 ， 只 要 模型 流程 是 正确 的 ， 梯 度 计 算 正 确 ， 模 
型 就 很 容易 过 拟 合 微小 子 集 。 典 型 的 错误 有 : 忘 了 加 激活 层 ， 最 后 一 
个 全 连接 层 后 加 了 激活 层 ， 权 重 初始 化 不 正确 ， 权 重 更 新 错误 ， 以 及 
数据 预 处 理 错误 等 。 


7.9 监测 学 习 过 程 


要 实时 监控 训练 过 程 ， 监 控 训 练 过 程 的 主要 目的 是 观察 超 参 数 是 
和 否 设置 合理 ， 学 习 效 果 如 何以 及 是 否 发 生 了 过 拟 合 。 比 如 学 习 率 设置 
得 过 大 ， 模 型 根本 没有 进行 有 效 学 习 时 ， 就 需要 及 时 终止 训练 ， 避 免 
浪费 计算 资源 。 有 两 个 最 重要 的 超 参数 需要 监控 : 学 习 率 和 正则 化 
强度 。 


7.9.1 损失 值 


我 们 可 以 通过 监测 损失 值 随 训练 周期 的 变化 情况 来 判断 学 习 率 的 
大 小 是 否 合适 。 有 4 种 典型 情况 : 第 一 种 是 损失 值 突然 增 大 ， 大 于 初 
始 损失 值 ， 而 且 持 续 增 大 ， 这 说 明 学 习 率 太 大 了 ; 第 二 种 是 损失 值 减 
小 速度 很 快 或 者 波动 太 大 ， 很 快 就 他 和 了 ,不 再 减 小 ， 但 最 终 损 失 值 
过 大 ， 这 说 明 学 习 率 比较 大 ; 第 三 种 是 损失 值 减 小 速度 很 慢 ， 这 说 明 
学 习 率 过 小 ; 第 四 种 是 损失 值 减 小 速度 适中 ， 最 终 损 失 值 很 小 ， 这 说 
明 学 习 率 比较 合适 。 实 践 中 ， 前 两 种 情况 很 容易 判断 ， 后 两 种 情况 不 
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好 区 分 ， 只 能 采用 不 同 的 学 习 率 进行 训练 ， 然 后 比较 ， 选 择 合适 的 学 
习 率 。 损 失 值 一般 采 用 批量 的 损失 值 ， 而 不 是 整个 训练 集 的 损失 值 。 
由 于 批量 的 数量 较 小 ， 所 以 损失 值 会 有 波动 ， 当 波动 比较 大 时 ， 可 以 
提高 批量 的 数量 。 损 失 值 画图 显示 时 ， 可 以 在 对 数 域 显示 ， 特 别 是 当 
损失 值 很 小 时 ， 在 对 数 域 很 容易 观察 到 损失 值 的 变化 。 


加 


7.9.2 ”训练 集 和 验证 集 的 准确 率 


我 们 通过 监测 训练 集 和 验证 集 的 准确 率 差异 随 训练 周期 的 变化 情 
况 ， 来 判断 正则 化 强度 是 否 合适 。 有 3 种 典型 情况 : 第 一 种 是 验证 集 
的 准确 率 远 差 于 训练 集 的 准确 率 ， 这 说 明 过 拟 合 很 明显 ; 第 二 种 是 验 
证 集 的 准确 率 稍 差 于 训练 集 的 准确 率 ， 这 说 明 过 拟 合 比较 弱 ; 第 三 
是 验证 集 的 准确 率 和 训练 集 的 准确 率 一 致 ， 这 说 明基 本 没有 过 拟 合 。 
当 过 拟 合 比较 弱 时 ， 判 断 验证 集 的 性 能 是 否 达到 设计 要 求 。 如 果 达 到 
要 求 ， 则 此 时 模型 可 以 作为 最 终 模 型 ， 如 果 没 有 达到 设计 要 求 ， 可 以 
增加 模型 容量 ， 再 进行 训练 ， 因 为 过 拟 合 弱 ， 可 能 是 模型 的 学 习 容 量 
小 导致 的 。 理 论 上 计算 训练 集 和 验证 集 的 性 能 需 采用 全 部 的 样本 ， 但 
这 样 计算 代价 太 大 。 实 践 中 ,训练 集 的 性 能 可 以 采用 批量 的 性 能 ， 验 
证 集 的 性 能 可 以 在 验证 集中 随机 选择 批量 数量 的 样本 来 计算 。 面 图 显 
示 时 ， 可 以 在 对 数 域 显示 准确 率 ， 当 准确 率 接近 100% 时 ， 很 容易 观 
察 到 准确 率 的 变化 。 


随 着 训练 进行 ， 当 验证 集 的 准确 率 开始 变 差 时 ,说 明 发 生 了 过 拟 
合 ， 可 以 提前 终止 训练 。 训 练 集 的 准确 率 一 般 来 说 ， 会 越 来 越 高 ， 如 
果 发 生 降低 ， 则 可 能 是 程序 出 错 。 
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7.9.3 参数 更 新 比例 


采用 梯度 下 降 法 等 方法 更 新 参数 时 ， 通 过 监测 参数 的 更 新 比例 ， 
可 以 掌握 每 层 参 数 的 学 习 情 况 。 参 数 更 新 比例 是 计算 一 层 中 所 有 参数 
更 新 量 和 参数 的 比值 ， 注 意 ， 需 要 每 层 单独 监控 。 更 新 比例 应 该 在 
10x** (-3) 左 右 ， 如 果 大 于 此 比例 ， 可 能 学 习 率 过 大 ; 如 果 小 于 此 比 
例 ， 学 习 率 可 能 过 小 。 人 参数 更 新 比例 代码 如 下 : 


update param = -lr*dparam 
update ratio = np.sum(np.abs (update param)) 
/np.sum(np.abs (param)) 


其 中 param 是 一 层 的 权重 或 偏 置 参数 ，dparam EJE, update 


param 是 参数 更 新 量 ，update_ratio 是 更 新 比例 。 


本 章 采 用 一 个 模拟 数据 集 进行 神经 网 络 的 训练 ， 把 前 面 的 相关 知 
识 整 合 在 一 起 ， 包 括 数据 预 处 理 、BN 层 、 神 经 网 络 模型 、 梯 度 反 向 
传播 、 梯 度 检查 、 监 测 训练 过 程 、 超 参数 随机 搜索 等 ， 使 读者 掌握 一 
个 完整 的 机 器 学 习 流 程 。 利 用 本 章 的 程序 ， 我 们 可 以 进行 实际 任务 的 
训练 和 评估 。 本 章 采 用 结构 化 程序 设计 思想 ， 把 每 个 独立 模块 封装 成 
函数 ， 其 中 涉及 的 知识 点 在 前 面 章 节 中 都 详细 介绍 过 ， 而 且 程序 本 身 
也 很 容易 理解 ， 故 不 再 进行 详细 解释 。 本 章 只 是 进行 简单 封装 ， 直 接 
给 出 相关 代码 ， 方 便 读者 查阅 。 


8.1 生成 数据 


生成 一 个 线性 不 可 分 的 数据 集 , 它 是 一 个 随时 间 增 长 的 振荡 数据 。 
首先 ， 设 置 数据 集 的 一 些 参数 : 


num samp per class = 200 
dim = 2 
N_class = 4 


第 8 章 神经 网 络 实例 | 151 


然后 生成 数据 函数 : 


def gen toy data(dim, N class, num samp per class): 


num examples - num samp per class*N class 


X - np.zeros((num examples, dim)) 
labels = np.zeros(num examples, dtype = 'uint8') 
for j in range(N class): 
ix - range(num samp per. class*j,num samp per. class* 
(3*41)) 
= np.linspace(-np.pi, np.pi, num samp per class) + 5 
= np.sin(x + j*np.pi/(0.5*N class) ) 


x 
y 
y += 0.2*np.sin(10*x + j*np.pi/(0.5*N class) ) 
y += 0.25*x + 10 4 线性 增长 
y += np.random.randn(num samp per class)*0.1 # E gs 
XLi] esompsciTEs y] 
labels[ix] = j 
return (X,labels) 


接着 可 视 化 数据 ， 结 果 如 图 8.1 所 示 。 


import matplotlib.pyplot as plt 
def show data(X, labels): 


plt.scatter(X[:, 0], X[:, 1], c » labels, s - 40, cmap = 
plt.cm.Spectral) 
plt.show() 
13.0 1 E AN 
125] WA * 
x ^ Ay 
120 4 PES 5 » 
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图 8.1 该 数据 集 有 4 类 样本 ， 是 线性 增长 的 振荡 数据 ( 男 见 彩 插 ) 
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8.2 数据 预 处 理 


中 心 化 和 归 一 化 的 代码 如 下 : 


def normalize(X): 
* (x-u)/delta 
mean = np.mean(X, axis = 0) 
X norm - X - mean 
std = np.std(X norm, axis = 0) 
X norm / - std « 10**(-5) 


return (X norm, mean, std) 


PCA 白化 的 代码 如 下 : 


def PCA white(X): 
mean = np.mean(X, axis = 0) 
X norm - X - mean 
cov - np.dot(X norm.T, X norm)/X norm.shape[0] 
U,S,V - np.linalg.svd(cov) 
X norm - np.dot(X norm, U) 
X norm /= np.sqrt(S + 10**(-5)) 


return (X norm, mean, U, S) 


TE 


数据 集 按 比 例 2 : 1 : 1 随机 分 为 训练 集 、 验 证 集 和 测试 集 ， 相 关 


代码 如 下 : 


def split data(X, labels): 
num examples - X.shape[0] 
shuffle no = list(range(num examples)) 


np.random.shuffle(shuffle no) 


X train - X[shuffle no[:num examples//2]] 
labels train - labels[shuffle no[:num examples//2]] 


X val = X[shuffle no[num examples//2:num examples//2 + 


num examples//4]] 
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labels val = labels[shuffle no[num examples//2:num. 


examples//2 + num examples//4]] 


X test - X[shuffle no[-num examples//4 :]] 
labels test - labels[shuffle no[-num examples//4 :]] 


return (X train, labels train, X val, labels val, 
X test, labels test) 


然后 对 数据 集 进 行 预 处 理 : 


def data preprocess(X train, X val, X test): 
(X train pca, mean, U, S) - PCA white(X train) 
X val pca - np.dot(X val-mean, U) 
X val pca /= np.sqrt(S + 10**(-5)) 
X test pca - np.dot(X test-mean, U) 
X test pca /- np.sqrt(S « 10**(-5)) 
return (X train pca, X val pca, X test pca) 


8.3 网 络 模型 


神经 网 络 模型 的 超 参数 主要 是 网 络 深度 ( 隐 含 层 的 数量 ) 和 每 层 
神经 元 的 数量 。 我 们 可 以 采用 list 结构 ( Layer. param) 存储 每 层 神 
经 元 数量 , 包括 输入 层 和 输出 层 。 当 layer param 只 有 两 个 元 素 时 ， 
表示 没有 隐 含 屋 ， 此 时 整个 网 络 就 是 线性 模型 。 模 型 的 权重 和 偏 置 参 
数 也 可 以 采用 list 结构 存储 。 


权重 初始 化 代码 如 下 : 


# layer param = [dim, 100, 100, N class] 
def initialize parameters (layer param): 


weights - [] 
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biases = [] 
vweights = [] 


vbiases = [] 


for i in range(len(layer param) - 1): 
in depth - layer param[i] 
out depth = layer. param[i-«1] 


QD std = np.sqrt(2/in depth)*0.5 
weights.append(std * np.random.randn(in depth, 
out, depth) ) 


biases.append(np.zeros((1, out depth))) 
vweights.append(np.zeros((in depth, out depth))) 
vbiases.append(np.zeros((1, out depth))) 

return (weights, biases, vweights, vbiases) 


其 中 语句 O PRA 0.5 进行 修正 ， 使 初始 数据 损失 接近 -log (1/ 


N_class)。 


模型 前 向 计算 代码 如 下 , 这 里 需要 注意 最 后 一 层 不 需要 非 线性 激活 : 


def forward(X, layer param, weights, biases): 
hiddens - [] 
hiddens.append(X) 
for i in range(len(layer param)-2 ): 
hiddens.append(np.maximum(0, np.dot(hiddens[i], 
weights[i]) + biases[i]) ) 
scores = np.dot(hiddens[-1], weights[-1]) + biases[-1] 


return (hiddens, scores) 
接 下 来 列 出 相关 的 网 络 模型 函数 。 


计算 softmax 数据 损失 值 : 


def data loss softmax(scores, labels): 
num examples - scores.shape[0] 


exp scores = np.exp (scores) 
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exp cores sum = np.sum(exp scores, axis = 1) 

corect probs - exp scores[range(num examples), 
labels]/exp cores sum 

corect logprobs --np.log(corect, probs) 

data, loss = np.sum(corect logprobs)/num examples 


return data loss 


计算 L2 范 数 损失 : 


def reg L2 loss(weights, reg): 
reg loss - 0 
for weight in weights: 
reg loss += 0.5*reg*np.sum(weight*weight) 


return reg loss 


计算 分 值 矩 阵 梯度 : 


def dscores softmax(scores, labels): 
num examples - scores.shape[0] 
exp scores = np.exp (scores) 
probs - exp scores/np.sum(exp scores, axis - 1, 
keepdims - True) 
dscores - probs 
dscores[range(num examples), labels] -- 1 
dscores /- num examples 


return dscores 


准确 率 预 测 : 


def predict(X, labels, layer param, weights, biases): 
hidden - X 
for i in range(len(layer. param)-2): 
hidden = np.maximum(0, np.dot(hidden, weights[i]) + 
biases[i] ) 
Scores = np.dot(hidden, weights[-1]) + biases[-1] 
predicted class - np.argmax(scores, axis - 1) 
rigth class - predicted class -- labels 


return np.mean(rigth class) 
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注 : predict 函数 和 前 向 函数 forward 几乎 一 致 ， 只 是 不 需要 
保存 hidden 神经 元 。 


梯度 反 向 传播 算法 : 


def gradient backprop(dscores, hiddens, weights, biases, reg): 
dweights - [] 
dbiases - [] 
dhidden - dscores 
for i in range(len(hiddens)-1, -1, -1): 
dweights.append(np.dot(hiddens[i].T, dhidden) + 
reg*weights[i]) 
dbiases.append(np.sum(dhidden , axis - O0, 
keepdims - True)) 
dhidden = np.dot(dhidden, weights[i].T) 
dhidden[hiddens[i] <= 0] = 0 
return (dweights, dbiases) 


8.4 梯度 检查 


对 每 层 的 权重 和 偏 置 进 行 梯度 检查 ， 数 据 集 采用 标准 正 态 分 布 随 
机 数 ， 所 以 不 需要 预 处 理 。 相 关 代码 如 下 : 


def gen random data(dim, N class, num samp per. class): 


num examples - num samp per class*N class 


X = np.random.randn(num examples, dim) # data matrix 
labels - np.random.randint(N class, size - num examples) 
return (X, labels) 


def check gradient(X, labels, layer param, 
check weight or. bias): 

d (X, labels) - gen random data(dim, N class, 
num samp per class - 200) 
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layer param = [dim, N class] 
layer param - [dim, 10, 20, N class] 
check weight or bias: 1 for weight, 0 for bias 


(weights, biases, vweights, vbiases) - 
initialize parameters(layer. param) 
reg = 10**(-9) 
step = 10**(-5) 
for layer in range(len(weights)): 
if check weight. or bias: 


row - np.random.randint (weights[layer].shape[0]) 


col - np.random.randint (weights[layer].shape[1]) 


param = weights[layer] [row] [col] 
else: 


row = np.random.randint (biases [layer] .shape[1]) 


param = biases[layer] [0] [row] 


(hiddens, scores) = forward(X, layer_param, 
weights,biases) 
dscores = dscores_softmax(scores, labels) 
(dweights, dbiases) = gradient backprop(dscores, 
hiddens, weights, biases, reg) 
if check weight or bias: 
danalytic = dweights[-1-layer][row][col] 
else: 


danalytic = dbiases[-1-layer] [0] [row] 


if check_weight_or_bias: 


weights [layer] [row] [col] = param - step 
else: 

biases[layer][0][row] = param - step 
(hiddens, scores) - forward(X, layer, param, 


weights, biases) 
data loss1 = data, loss softmax(scores, labels) 
reg loss1 = reg L2 loss(weights, reg) 
loss1 = data loss1 + reg lossi 


if check weight or bias: 
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weights[layer][row][col] = param + step 
else: 

biases[layer][0][row] = param + step 
(hiddens, scores) - forward(X, layer param, 


weights, biases) 


data loss2 - data loss softmax(scores, 
reg loss2 - reg L2 loss(weights, reg) 


loss2 = data loss2 + reg loss2 
dnumeric = (loss2 - loss1)/(2*step) 


print (layer, data lossi1, data, loss2) 


error relative - np.abs(danalytic - dnumeric)/ 


np.maximum(danalytic, dnumeric) 


labels) 


print(danalytic, dnumeric, error relative) 


在 上 述 代码 中 , 语句 CD tt] O uH EB FE— BOR SG 


出 置 进行 测 


试 。 这 里 需要 注意 语句 QD 和 语句 人 中 中 的 -1-1ayer。 因 为 梯度 Gweights 


是 倒序 存储 的 ， 即 模型 第 一 层 的 梯度 存储 在 列表 最 后 。 初 始 数据 损 


失 在 138 左右 ， 和 理论 值 -np.1og (1/N_class) 十 分 接近 。 梯 度 值 
danalytic 和 dnumeric 数值 变化 很 大 ,在 10** (-2) 8] 10** (-4) 
之 间 。 相 对 误差 error relative 在 10** (-8) 量 级 以 下 ， 这 说 明 梯 


度 检查 正确 。 


85 ”参数 优化 


比例 : 


def nesterov momentumSGD(vparams, params, dparams, 


update ratio - [] 
for i in range(len(params)): 


pre vparam = vparams[i] 


lr 


这 里 我 们 采用 Nesterov 动量 优化 方法 ， 同 时 函数 返回 了 参数 更 新 


mu): 
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vparams[i] = mu*vparams[i] - l1r*dparams[-1-i] 

updata param = vparams[i] + mu*(vparams[i] - 
pre vparam) 

params[i] += updata param 

update ratio.append(np.sum(np.abs (updata, param)) 
/np.sum(np.abs (params[i]l))) 


return update ratio 


8.6 训练 网 络 


训练 网 络 的 代码 如 下 : 


def train net(X train, labels train, layer param, lr, 
lr decay, reg, mu, max epoch, X val, labels. val): 


© (weights, biases, vweights, vbiases) = 
initialize parameters(layer. param) 
epoch = 0 
data losses - [] 


reg losses - [] 


val accuracy - [] 
train, accuracy - [] 
weights update ratio - [] 
baises, update ratio = [] 
while epoch < max epoch: 
© (hiddens, scores) = forward(X_train, layer_param, 


weights, biases) 


© val accuracy.append(predict(X val, labels val, 1 
ayer param, weights, biases)) 
train accuracy.append(predict(X train, labels train, 
layer param, weights, biases)) 


由 data loss = data loss softmax(scores, labels train) 


reg loss - reg L2 loss(weights, reg) 
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© dscores = dscores softmax(scores, labels train) 
(dweights, dbiases) = gradient, backprop(dscores, 
hiddens, weights, biases, reg) 
Q weights update ratio.append( nesterov momentumSGD 
(vweights, weights, dweights, lr, mu) ) 
baises update ratio.append( nesterov. momentumSGD 
(vbiases, biases, dbiases, lr, mu) ) 
data, losses.append(data, loss) 
reg losses.append(reg. loss) 
epoch «- 1 
lr *- lr decay 


# 可 视 化 数据 损失 、 训 练 集 和 验证 集 的 准确 率 
plt.close() 

fig e plt.figurei' loss") 

ax = fig.add subplot(2,1,1) 
ax.grid(True) 

ax2 = fig.add subplot(2,1,2) 
ax2.grid(True) 


plt.xlabel( 'log10 (lr) = ' + str(round((np.log10(1r)), 
2)) +' ' + 'logiO0(reg) = ' + str(round((np.logi10 
(reg)),2)), fontsize - 14) 


plt.ylabel('accuracy logl0 (data 


loss)', fontsize = 14) 
ax.scatter(np.arange(len(data losses)), np.logl0(data_ 
losses), c = 'b',marker = '.') 


d ax2.scatter(np.arange(len(reg losses)), 
np.logi10(reg losses), c = 'r',marker = '*') 
ax2.gcatter(np.arange(len(val accuracy)-0), 


val accuracy[0:], c - 'r',marker - '*") 


ax2.scatter(np.arange(len(val accuracy)-0), 
train accuracy[0:], c = 'g',marker = '.") 
plt.show() 


# 对 数 显 示 每 层 权 重 和 偏 置 的 更 新 率 ， 合 理 值 在 10**(-3) 


for layer in range(len(weights)): 


for i in range(len(weights update ratio)): 
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wur.append( weights update ratio[i]l[layer] ) 


bur - [] 
for i in range(len(baises update ratio)): 
bur.append( baises update ratio[i] [layer] ) 


plt.close() 

fig - plt.figure('update ratio') 
ax = fig.add subplot (2,1,1) 
ax.grid(True) 

ax2 = fig.add subplot (2,1,2) 
ax2.grid(True) 


plt.xlabel( 'l1og10(l1r) = ' + str(round((np.log10 
(1r)),2)) + ' ' + '1ogl0(reg) = ' + str(round 
((np.1og10(reg)),2)), fontsize = 14) 
ax.scatter(np.arange(len(wur)), np.log10 (wur), 
Qoxl y mexkex.- v) 
ax2.scatter(np.arange(len(bur)), np.log10 (bur), 
c 2 '"r'marker = +41) 
plt.show() 


return (data losses, reg losses, weights, biases, 


val accuracy) 


这 里 简要 介绍 一 下 训练 网 络 的 流程 。 首先 , 初始 化 参数 (语句 四) 
接着 ， 前 向 计算 得 到 分 值 矩阵 和 隐 含 层 激活 值 〈 语 句 @) )， 计 算 训练 
集 和 验证 集 的 准确 率 (语句 @) )， 计 算数 据 损失 和 正则 化 损失 ( 语句 
巾 )。 然 后 ， 开 始 梯度 反 向 传播 。 先 计算 分 值 矩阵 的 梯度 (语句 O), 
然后 进行 反 向 传播 (语句 (@@), 计算 权重 和 偏 置 更 新 率 Cif] CO). HE 
着 ,进行 学 习 率 指数 退火 (语句 @) )。 最 后 ， 对 损失 、 准 确 率 及 参数 
更 新 率 等 进行 可 视 化 。 
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8.7 


此 时 最 好 关闭 正则 化 ( reg = 0 )， 数 据 


过 拟 合 小 数据 集 


过 拟 合 小 数据 集 的 相关 代码 如 下 : 


def overfit tinydata(X, labels, layer param, lr = 10**(-0.0), 


lr. decay = 1, mu = 0.9, reg = 0, max epoch = 100): 


(X,labels) - gen toy data(dim, N class, 
num samp per class - 2) 
layer param - [dim, 100, 100, N class] 


(data losses, reg losses, weights, biases, accuracy) - 
train net(X, labels, layer param, lr, lr. decay, reg, 
mu, max epoch, X, labels) 


return (data losses, reg losses, accuracy) 
# data loss = 5.932608313857891e-04 


3 Tr 


必须 非常 小 ， 本 实例 使 


用 了 每 类 两 个 样本 。 训 练 了 100 $6, 最 终 数 据 损 失 是 5.9e-04, 准确 
率 为 100%， 这 说 明 已 经 发 生 过 拟 合 。 采 用 的 模型 有 两 个 隐 含 层 ， 每 
层 都 有 100 个 神经 元 。 


8.8 超人 参数 随机 搜索 


超 参 数 随机 搜索 的 相关 代码 如 下 : 


def hyperparam random search(X train, labels train, X val, 


labels val, layer. param, num try = 10, lr = [-1, -5], 
lr. decay = 1, mu = 0.9, reg = [-2.0, -5.0], max epoch = 500): 
(X,labels) - gen toy data(dim, N class, 


num samp per class - 200) 
layer param - [dim, 100, 100, N class] 
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minir = min(lr) 

maxlr - max(lr) 

randn = np.random.rand (num try*2) 

lr array = 10**(minlr + (maxlr - minlr)*randn[0: num try]) 
minreg - min(reg) 

maxreg = max(reg) 


reg array = 10**(minreg + (maxreg - minreg)*randn[num try: 
2*num try]) 


lr regs = zip(lr array, reg array) 


for lr reg in 1r regs: 


(data loss, reg loss, weights, biases, val accuracy) 


= train net(X train, labels train, layer. param, 
lr reg[0], lr. decay, lr reg[1], mu, max epoch, 
X val, labels val) 


return (weights, biases) 


注意 , 调用 该 函数 时 ,必须 使 用 8.2 节 介 绍 的 预 处 理 后 的 数据 集 。 
由 于 数据 集 很 小 , 收敛 速度 较 快 , 所 以 学 习 率 不 需要 退火 ( 1r_decay = 1 )。 
采用 模型 layer_param = [dim = 2, 100, 100, N class = 4] 
进行 实际 训练 时 ,会 得 到 一 些 结果 ， 如 图 8.2 所 示 。 每 个 结果 都 有 两 
组 图 : 左上 图 是 数据 损失 ( 对 数 显示 )， 左 下 图 是 验证 集 和 训练 集 
的 准确 率 〈 验证 集 曲 线 位 于 下 面 ) 右上 图 是 第 一 层 权 重 更 新 比例 ， 


右 下 图 是 第 一 层 偏 置 更 新 比例 ， 注 意 比例 都 是 对 数 显 示 的 。 


TE 


首先 ， 进 行 超 参 数 粗 搜 索 ， 进 行 500 轮训 练 ， 结 果 如 图 8.2 所 示 ， 
表明 学 习 率 10** (-0.1) 过 大 。 
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图 8.2 ”学 习 率 过 大 ， 数 据 损失 波动 很 大 且 下 降 很 快 ， 参 数 更 新 率 


也 过 高 〈 另 见 彩 搬 ) 


接着 减 小 学 习 率 ， 进 行 2000 轮训 练 ， 结 果 如 图 8.3 所 示 ， 这 表明 
习 率 10** (-1.18) 稍微 偏 大 。 
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图 8.3 数据 损失 无 波动 ， 训 练 集 和 验证 集 的 准确 率 饮 和， 验证 集 
的 准确 率 只 有 75%， 参 数 更 新 率 稍 大 ， 这 说 明 减 小 学 习 率 
了 可 能 进一步 提高 验证 集 的 准确 率 ( 另 见 彩 插 ) 


继续 减 小 学 习 率 ， 进 行 10 000 轮训 练 ， 结 果 如 图 8.4 所 示 ， 这 表 
明 学 习 率 10** (-2 .1) 比较 合适 。 
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图 8.4 数据 损失 无 波动 ， 训 练 集 和 验证 集 的 准确 率 趋 于 饱和 ， 验 
证 集 的 准确 率 有 80%， 训 练 集 的 准确 率 高 达 95%， 收 敛 时 
参数 更 新 率 已 经 很 低 ， 过 拟 合 现象 不 明显 ， 这 说 明 模型 验 
证 集 的 准确 率 难 以 超过 80% ( 男 见 彩 插 


8.9 评估 模型 


程序 的 最 后 ， 采 用 测试 集 对 模型 进行 评估 ， 得 到 模型 的 最 终 泛 化 
生 能 指标 ， 其 参数 使 用 上 节 验 证 集中 准确 率 最 高 的 模型 参数 。 相 关 代 
码 如 下 : 


HE 


accuracy - predict(X test pca, labels test, 
layer param, weights, biases) 


8.10 程序 组 织 结构 


整个 程序 有 很 多 函数 ， 如 果 全 部 放 在 一 个 文件 中 ， 那 么 结构 会 不 
清晰 , 不 利于 扩展 。 经 过 分 析 可 以 发 现 , 程序 主要 由 三 部 分 组 成 : 数据 
集 处 理 函数 (8.1 节 和 8.2 节 )、 网 络 模型 函数 (8.3 节 、8.5 节 和 8.6 0) 
和 模型 使 用 函数 (8.4 节 、8.7 节 到 8.9 节 ), 将 这 三 部 分 函数 分 别 存储 为 
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一 个 文件 ， 作 为 一 个 独立 模块 ， 其 文件 名 分 别 为 data_process、 
nn, model fll nn, model utilize, JH nn model utilize 模块 
需 导 入 nn model 模块 。 


主 文件 nn_test 调用 nn_modael_utilize 模 块 的 函数 ,代码 如 下 : 


from data process import * 


from nn model utilize import * 


dim = 2 # dimensionality 


N_class = 4 # number of classes 


#33 


layer param = [dim, 10, 20, N class] 
(X, labels) - gen random data(dim, N class, 
num samp per class - 20) 


for i in range(2): 

check gradient(X, labels, layer param, 1) 
# 提名 名 

layer param = [dim, 100, 100, N class] 

(X,labels) - gen toy data(dim, N class, 
num samp per class - 2) 

X, , 5. = PCA white(X) 

(data losses, reg losses, accuracy) - overfit tinydata 
(X, labels, layer param, lr - 10**(-0.5), lr decay - 1, 
mu - 0.9, reg - 10**(-10), max epoch - 100) 


# 125 
layer param - [dim, 100, 100, N class] 
(X,labels) - gen toy data(dim, N class, 


num samp per class - 200) 

(X train, labels train, X val, labels val, X test, 
labels test) - split data(X, labels) 

(X train pca, X val pca, X test pca) - 


data, preprocess(X train, X val, X test) 


(weights, biases) = hyperparam random search(X train. 
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pca, labels train, X val pca, labels val, layer. param, 
num Eryx mx cox yD] 
lr decay = 1, mu = 0.9, 
reg = [-2, -5], max epoch = 200) 


8.11 增加 BN 层 


增加 BN 层 ， 不 会 改变 程序 的 总 体 流程 。 但 是 需要 注意 的 是 ， 这 
里 不 再 需要 偏 置 参数 ， 而 是 增加 了 标准 差 和 均值 参数 ， 同 时 需要 保留 
BN 层 的 一 些 中 间 结 果 ， 如 均值 和 方差 等 。 注 意 ， 由 于 采用 全 部 样本 
进行 训练 ， 所 以 均值 和 方差 不 需要 进行 移动 平均 。 


1. BN 层 前 向 和 后 向 代码 


BN 层 的 前 向 计算 代码 如 下 : 


BN EPSILON - 10**(-5) 
def BN forward(X, gamma, beta): 


mu = np.mean(X, axis = 0) 

var - np.var(X, axis - 0) 

std = np.sqrt (var + BN EPSILON) 
X hat - (X - mu)/std 


Y = gamma*X hat + beta 
bn cache - (mu, var, std) 
return (Y, bn cache, X hat) 


BN 层 的 后 向 计算 代码 如 下 : 


def BN backprop(dY, X, X hat, bn cache, gamma, beta): 
(mu, var, std) - bn cache 
batch - X.shape[0] 
dX hat - gamma*dY 
dbeta - np.sum(dY, axis - 0, keepdims - True) 


dgamma - np.sum(X hat*dY, axis - 0, keepdims - True) 
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dx = dX hat/std 

dmu = -np.sum(dX hat, axis = 0, keepdims = True)/std 
dstd -l/(std*std) * np.sum((X - mu)*dX hat, axis = 0) 
dvar = 1/2* (var**(-0.5))*dstd 

dX «- 2*(X - mu)/batch * dvar 

dX «- dmu/batch 


return (dX, dgamma, dbeta) 
2. 模型 参数 的 初始 化 和 前 向 计算 


参数 初始 化 时 ， 需 要 注意 将 方差 参数 gammas 初始 化 为 1， 而 权 
重 参数 不 再 需要 修正 : 


def initialize parameters BN(layer. param): 
weights - [] 
gammas - [] 
betas - [] 
vweights - [] 
vgammas - [] 


vbetas - [] 


for i in range(len(layer param) - 1): 
in depth = layer param[i] 
out depth = layer param[i-«1] 
std = np.sqrt(2/in depth) 
weights.append( std * np.random.randn(in depth, 
out, depth) ) 
gammas.append( np.ones((1, out depth)) ) 
betas.append( np.zeros((1, out depth)) ) 


vweights.append( np.zeros( (in depth, out depth) ) ) 
vgammas.append( np.zeros((1, out depth)) ) 


vbetas.append( np.zeros((1, out depth)) ) 


params - (weights, gammas, betas) 
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vparams = (vweights, vgammas, vbetas) 


return (params, vparams) 


网 络 前 向 计算 的 流程 和 没有 BN 层 时 一 致 ， 即 先是 全 连接 层 ( 语 
名 中 )， 然 后 是 BN 层 〈 语 句 @ )， 接 着 进行 非 线性 激活 〈 语句 @ )。 
这 里 需要 注意 分 值 不 需要 激活 〈 语句 00), 相关 代码 如 下 : 


def forward BN(X, layer param, params): 
hiddens - [] 
bn ins - [] 
bn caches - [] 
bn hats - [] 


(weights, gammas, betas) - params 
hiddens.append(X) 
for i in range(len(layer. param)-1): 
hidden = np.dot(hiddens[i], weights[i]l) 
bn ins.append (hidden) 
Q (hidden, bn cache, bn hat) - BN forward(hidden, 
gammas[i],betas[il) 
bn hats.append (bn hat) 
bn caches.append (bn, cache) 
if i « len(layer. param)-2: 
© hiddens.append(np.maximum(0, hidden) ) 
else: 
© scores = hidden 


return (hiddens, scores, bn_ins, bn_hats, bn_caches) 


3. 模型 梯度 反 向 传播 


模型 梯度 反 向 传播 代码 如 下 : 


def gradient backprop BN(dscores, params, hiddens, bn ins, 
bn hats, bn caches, reg): 
(weights, gammas, betas) - params 
dweights - [] 
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dgammas = [] 
dbetas - [] 


dhidden - dscores 
for i in range(len(hiddens)-1, -1, -1): 


(dhidden, dgamma, dbeta) - BN backprop(dhidden, 


bn ins[i], bn hats[i], bn caches[i], gammas[ 


betas[i]) 
dgammas .append (dgamma) 
dbetas.append (dbeta) 


i], 


dweights.append(np.dot(hiddens[i].T, dhidden) + 


reg*weights[i] ) 
dhidden - np.dot(dhidden, weights[i].T) 
dhidden[hiddens[i] <= 0] = 0 

return (dweights, dgammas, dbetas) 


其 他 函数 代码 与 不 含 BN 层 的 神经 网 络 代码 一 致 , 这 里 不 


4. 训练 结果 分 析 


这 里 数据 的 初始 损失 值 不 再 是 -np.1og (1/N_class)， 


再 贴 出 。 


变动 范围 


比较 大 。 梯度 的 相对 误差 也 比较 大 , 主要 在 10** (-5) 左 右 。BN 层 的 
最 大 作用 是 采用 更 大 的 学 习 率 以 加 速 训练 以 及 采用 较 小 的 正则 化 强 
度 。 这 些 结论 得 到 了 下 面 实 验 结果 的 支持 。 虽 然 初 始 学 习 率 很 大 


(10**(0.07) )， 正 则 化 趋 近 0 (10** (-40) )， 数 据 损失 波动 较 大 日 


下 降 很 快 (200 轮训 练 )， 参 数 更 新 率 也 比较 大 , 但 是 最 终 的 验证 集 的 
准确 率 却 达到 80%。 这 和 上 面 没 有 BN 层 时 的 最 好 结果 一 致 ， 如 图 8.5 


所 示 。 
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图 8.5 ”很 大 的 初始 学 习 率 和 很 小 的 正则 化 ， 达 到 很 好 的 性 能 ( 男 见 彩 插 


— 


8.12 程序 使 用 建议 


如 果 读 者 不 对 神经 网 络 模型 进行 改进 ， 那 么 使 用 本 程序 时 只 需 改 
变 网 络 超 参数 ， 如 设置 layer_param = [dim, 200, 100, 100, 100, 
N_class] 和 使 用 自己 的 数据 矩阵 及 数据 预 处 理 ， 然 后 直接 调用 超 参 
数 随机 搜索 函数 进行 训练 ， 保 存 最 好 模型 的 参数 即 可 。 如 果 对 神经 网 
络 进行 改进 ， 只 需要 修改 8.3 节 中 的 参数 初始 化 、 前 向 计算 以 及 梯度 
反 向 传播 算法 ， 其 他 模块 无 须 修 改 ， 具 体 可 参考 增加 BN 层 的 代码 。 
由 此 可 见 ， 在 实际 工作 中 ， 精 力主 要 集中 在 数据 预 处 理 和 模型 超 参数 
搜索 中 , 对 模型 的 改进 只 是 占用 了 很 少 的 精力 , 其 至 不 需要 改进 模型 ， 
可 直接 使 用 基本 模型 。 


KR E 


$9 


卷 积 神 经 网 络 实 例 


第 8 章 介绍 了 常规 神经 网 络 方面 的 例子 ， 本 章 将 采用 MNIST 数 
据 集 进行 卷 积 神经 网 络 实战 学 习 , 它 与 常规 神经 网 络 的 流程 基本 一 致 ， 
包括 数据 预 处 理 、 网 络 模型 、 梯 度 反 向 传播 、 梯 度 检查 、 监 测 训练 过 
程 和 超 参数 随机 搜索 等 知识 。 由 于 卷 积 神经 网 络 的 代码 比较 复杂 ， 采 
用 结构 化 设计 会 比较 困难 ， 所 以 本 章 采用 面向 对 象 的 设计 方法 ， 把 每 
个 独立 模块 封装 成 对 象 。 和 第 8 章 一 样 ， 每 个 知识 点 在 前 面 章 节 中 都 
详细 介绍 过 ， 而 且 程序 本 身 也 很 容易 理解 ， 故 不 再 进行 详细 解释 ， 只 
是 进行 简单 的 封装 ， 给 出 接口 。 


本 章 的 网 络 结构 是 类 VGG 结构 ， 即 4.5 节 介 绍 的 最 基本 结构 : 将 
卷 积 层 、 池 化 层 和 全 连接 层 这 三 层 进行 简单 串联 。 程 序 的 结构 清晰 ， 
容易 学 习 ， 和 常规 神经 网 络 的 实现 十 分 接近 ， 而 且 实际 应 用 也 较为 
广泛 。 
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9.1 程序 结构 设计 


训练 一 个 卷 积 网 络 ， 主 要 包括 7 部 分 : 激活 函数 、 正 则 化 、 优 化 
方法 、 卷 积 网 络 基 本 模块 、 训 练 方 法 、 网 络 结构 和 数据 集 。 每 个 部 分 
都 可 以 抽象 成 一 个 类 ， 其 中 激活 函数 、 正 则 化 、 优 化 方法 、 卷 积 欧 
络 基本 模块 和 训练 方法 这 5 个 类 基本 固定 ， 可 以 适用 于 各 种 网 络 结 
构 ， 并 且 前 4 个 类 都 设计 为 接口 类 ， 数 据 存储 在 网 络 结构 类 中 。 网 


络 结构 类 利 月 


昌 卷 积 网 络 的 基本 模块 类 进行 组 合 ， 可 以 实现 各 种 网 络 


结构 ,如 ResNet。 数据 集 类 主要 进行 数据 集 的 载 人 和 预 处 理 。 9.2 节 ~ 


9.8 节 依 次 介绍 了 这 7 部 分 。 


9.2 激活 函数 


该 类 实现 了 最 常用 的 两 种 激活 函数 ReLU 和 ELU。 接 口 类 没有 数 
据 ， 成 员 函 数 采 用 静态 方法 ( @staticmethod )， 并 对 输入 进行 合理 


性 检查 (che 


ck_activation )， 相 关 代码 如 下 : 


import numpy as np 


class ActivationInterface (object): 


activations - ['ReLU', 'ELU'] 
Gstaticmethod 
def activation(data, activation): 


if activation -- 'ReLU': 
data - np.maximum(0, data) 


return data 
if activation -- 'ELU': 
expdata - np.exp(data) - 1 
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data = np.where(data > 0, data, expdata) 
return data 
Gstaticmethod 
def dactivation(ddata, data, activation): 
if activation -- 'ReLU': 
ddata[data «- 0] = 0 
return ddata 
if activation -- 'ELU': 
ddatatemp = ddata*(data-«1) 


ddata - np.where(data » 0, ddata, ddatatemp) 
return ddata 
Gstaticmethod 
def check activation(activation): 
if activation not in ActivationInterface.activations: 
raise ValueError('''Activation methods: ReLU, 
ELU!''') 


9.3 正则 化 


该 类 实现 了 两 种 范 数 正 则 化 : L2 和 EL1。 相 关 代 码 如 下 : 


import numpy as np 


class RegulationInterface(object): 
regulations - ['L1', 'L2'] 
Gstaticmethod 
def norm reg(weight, reg, regulation): 
it regulation ss 'L2'1 
return np.sum(weight*weight)*reg/2 
i£ regulation ss 'Li'i 
return np.sum(np.abs(weight))*reg 
Gstaticmethod 
def dnorm reg(weight, reg, regulation): 
if regulation -- 'L2': 


return weight*reg 
it regulation ss TLL g 
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return np.sign (weight)*reg 
@staticmethod 
def check regulation(regulation): 
if regulation not in RegulationInterface.regulations: 
raise ValueError('''Regulation methods: L1, 
B2 65) 


9.4 优化 方法 


OptimizerInterface 类 实现 了 最 常用 的 两 种 优化 方法 : Nesterov 
动量 方法 和 Adam 自 适应 方法 。 其 代码 如 下 : 


import numpy as np 


class OptimizerInterface(object): 

optimizers - [ 'Nesterov', 'adam'] 

decay. rate - 0.999 

eps - 10**(-8) 

Gstaticmethod 

def nesterov momentumGD(lr, param, vparam, dparam, 
mu e 0.9): 
pre vparam - vparam 
vparam - mu*vparam - lr*dparam 
updata param = vparam + mu*(vparam - pre vparam) 
update ratio = np.sum(np.abs (updata, param))/ 

np.sum(np.abs (param)) 

param += updata param 
return update ratio 

Gstaticmethod 

def adam(lr, param, vparam, cache, dparam, t - 1, 
mü, = 09 
vparam = mu*vparam + (1-mu)*dparam 
vparamt - vparam/(1 - mu**t) 
cache = OptimizerInterface.decay rate*cache + 

(1-OptimizerInterface.decay. rate)*(dparam**2) 
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cachet = cache/(1 - OptimizerInterface.decay_rate**t) 

updata, param --(lr/(np.sqrt(cachet) + 
OptimizerInterface.eps)) * vparamt 

update ratio - np.sum(np.abs(updata, param))/ 
np.sum(np.abs(param)) 

param «- updata param 


return update ratio 


Gstaticmethod 
def check optimizer(optimizer): 
if optimizer not in OptimizerInterface.optimizers: 
raise ValueError('''updates methods: Nesterov 
and adam!''') 


9.5 ” 卷 积 网 络 的 基本 模块 


下 面 给 出 了 卷 积 层 、 池 化 层 、 全 连接 层 、softmax 层 的 前 向 和 
反 向 ， 以 及 参数 初始 化 代码 。 代 码 在 第 4 章 中 有 过 详细 解释 ， 本 节 
不 再 重复 。 注 意 ， 该 类 继承 了 激活 类 ， 因 为 需要 实现 激活 函数 。 


import numpy as np 


from activation interface import ActivationInterface 


class CnnBlockInterface(ActivationInterface): 


the implementation of three basic blocks of cnn net: 
the conv pool and fc block 


and the softmax layer 


Gstaticmethod 
def conv layer(in data, weights, biases, layer. param = 
(0,3,1,1), activation - 'ReLU'): 


第 9 章 ” 卷 积 神经 网 络 实例 | 177 


in data.shape = [batch,in height,in width,in depth] 


weights.shape - [filter size*filter size*in depth, 
out, depth] 

biases.shape = [1, out, depth] 

out data.shape = [batch,out, height,out width, 
out, depth] 


the data for calu gradient: matric data, filter. data 


return (matric data, filter data, out data) 


Gstaticmethod 

def dconv. layer(dout data, matric data, filter data, 
weights, maps shape, layer param - (3,1,1), 
activation - 'ReLU'): 


inputs: dout data, matric data, filter data 
matric data, filter data are data produced in the 
forward 


outputs: (dweight, dbias, din data) 


return (dweight, dbias, din data) 


Gstaticmethod 
def pooling layer(in data, filter size - 2, stride - 2): 
in data.shape - [batch,in height,in width,in depth] 
out data.shape - [batch,out height,out width, 
out depth = in depth] 


the data for calu gradient: matric data max pos 


return (out data, matric data max pos) 


Gstaticmethod 
def dpooling layer(dout data, matric data max pos, 
maps shape, filter size - 2, stride - 2): 


dout data.shape - [batch,out height,out width, 
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out depth = in depth] 
matric data max pos.shape - [batch,in height, 
in width,in, depth] 


din data.shape - [batch,in height,in width,in depth] 
pass 


return din, data 


Gstaticmethod 


def FC layer(in data, weights, biases, out depth, last, 


activation - 'ReLU'): 

in data.shape - [batch, in height, in width, in depth] 

weights.shape - [filter size*filter size*in depth, 
out, depth] 

biases.shape = [1, out, depth] 

last - 1 if the FC is the last one 


out data.shape - [batch,out height,out width,out depth] 
the data for calu gradient: matric data, filter data 
(batch, in height, in width, in depth) - in data.shape 
matric data = np.zeros( (batch, in height*in width* 

in depth) ) 
for i batch in range(batch): 

matric data[i batch] = in datal[i batch].ravel() 
filter data = np.dot(matric data, weights) + biases 
if not last: $ 最 后 一 层 不 需要 激活 

filter data = CnnBlockInterface.activation 

(filter data, activation) 


out. data = np.zeros((batch, 1, 1, out. depth)) 
for i batch in range(batch): 


out data[i batch] - filter data[i batch] 


return (matric data, filter data, out data) 
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@staticmethod 
def dFC layer(dout data, matric data, filter data, 
weights, maps shape, last, activation = 'ReLU'): 


inputs: dout data, matric data, filter data 
matric data, filter data are data produced in the forward 
outputs: (dweight, dbias, din data) 
(in height, in width, in depth) - maps shape 
(batch, out height, out width, out depth) = 

dout, data.shape 


dfilter data - np.zeros like(filter data) 
for i batch in range(batch): 


dfilter data[i batch] - dout data[i batch].ravel() 
if not last: 


dfilter data - CnnBlockInterface.dactivation 
(dfilter data, filter data, activation) 


dweight - np.dot(matric data.T, dfilter data) 
dbias - np.sum(dfilter data, axis - 0, keepdims - True) 
dmatric data - np.dot(dfilter data, weights.T) 


din data = np.zeros((batch, in height, in width, 
in depth) ) 
for i batch in range(batch): 
din data[i batch] = dmatric data[i batch].reshape 
(in height, in width, -1) 


return (dweight, dbias, din data) 


Gstaticmethod 

def softmax layer(scores): 
Scores.shape = [batch,1,1,in depth] 
probs.shape - [batch,1,1,in depth] 
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Scores -= np.max(scores, axis = 3, keepdims = True) 
exp scores = np.exp(scores)«10**(-8) 4 数值 计算 更 稳定 
exp scores sum = np.sum(exp scores, axis = 3, 
keepdims - True) 
probs - exp scores/exp scores sum 
return probs 
Gstaticmethod 


def data loss(probs, labels): 


labels is array of integers specifying correct class 

probs.shape - [batch,1,1,in depth] 

probs. correct = probs[range(probs.shape[0]), :, :, 
labels] 

logprobs correct = -np.log(probs,. correct) 

data, loss = np.sum(logprobs. correct)/labels. 
shape[0] 

return data loss 


Gstaticmethod 
def evaluate dscores(probs, labels): 


probs.shape - [batch,1,1,in depth] 

labels is array of integers specifying correct class 
dscores.shape - [batch,1,1,in depth] 

dscores - probs.copy() 
dscores[range(probs.shape[0]), :, :, labels] -- 1 
dscores /- labels.shape[0] 


return dscores 


Gstaticmethod 
def param init(out depth, in depth, filter size2): 


filter size2 - filter size*filter size 
weights.shape - [filter size2*in depth, out depth] 
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std = np.sqrt(2)/np.sqrt(filter size2*in depth) 

weights = std * np.random.randn(filter size2* 
in depth, out depth) 

biases = np.zeros((1, out, depth)) 

return (weights, biases) 


9.6 ”训练 方法 


CnnTrainInterface 类 的 代码 如 下 : 


import numpy as np 


import matplotlib.pyplot as plt 


class CnnTrainInterface(object): 


decay the learning rate every epoch using an exponential 


rate of lr decay 


support learning rate and regularization random search 


also support train and test from checkpoint 


def 


def 


. shuffle data(self): 

shuffle no = list(range(self.num train samples)) 
np.random.shuffle(shuffle no) 

Self.train labels - self.train labels[shuffle no] 
Self.train data - self.train data[shuffle no] 


shuffle no = list(range(self.num val samples)) 
np.random.shuffle(shuffle no) 

self.val labels - self.val labels[shuffle no] 
self.val data - self.val data[shuffle no] 


. train(self, epoch more = 20, lr = 10**(-4), reg = 

10**(-5), batch = 64, lr decay = 0.8, mu = 0.9, 

optimizer - 'Nesterov', regulation - 'L2', 
activation - 'ReLU'): 


# 可 视 化 数据 损失 、 训 练 集 和 验证 集 准确 率 
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plt.close() 

fig - plt.figure('') 

ax = fig.add subplot(3,1,1) 
ax.grid(True) 

ax2 - fig.add subplot(3,1,2) 
ax2.grid(True) 

ax3 - fig.add subplot(3,1,3) 
ax3.grid(True) 


plt.xlabel( 'log10(lr) = ' + str(round((np.log10(lr)), 
2)) *' '+ 'logl0(reg) = ' + str(round((np.log10 
(reg)),2)), fontsize - 14) 


plt.ylabel('update ratio 
accuracy logi0(data loss)', fontsize = 14) 


epoch = 0 
val no = Ü 
per epoch time - self.num train samples//batch 
while epoch « epoch more: 
losses - 0 
self. shuffle data() 
for i in range(0, self.num train, samples, batch): 
batch data = self.train data[i:i-«batch,:] 
labels = self.train labels[i:i-«batch] 
(data loss, reg loss) - self.forward 
(batch data, labels, reg, regulation, 
activation) 
losses += data loss + reg loss 
self.backpropagation(labels, reg, 
regulation, activation) 
self.params update(lr, per epoch time* 
epoch + i«1, mu, optimizer) 


update ratio - self.update ratio[0][0] 


if i $ (batch*20) z- 0: 
ax.scatter(i/self.num train samples-«epoch, 
np.logi10 (data loss), c = 'b',marker- '.') 
train accuracy - self.predict (batch data, 
labels, activation) 
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batch data val = self.val data[val no: 
val no-«batch,:] 

labels, val = self.val, labels[val. no: 
val no-«batch] 

val accuracy = self.predict (batch data . 
val,labels val, activation) 

val no «- batch 

if val no >= self.num val samples - batch: 
val no = 0 

ax2.scatter(i/self.num train samples«epoch, 
(train accuracy), c - 'r',marker = '*') 

ax2.scatter(i/self.num train samples-«epoch, 
[val socuraeyl, e e "bpt markér = trt) 

ax3.scatter(i/self.num train samples«epoch, 
np.logl0(update ratio), c= 'r',marker- '.') 

plt.pause(0.000001) 

epoch «- 1 


plt.savefig('checkpoint ' + '(loss ' + str(round 
(np.logi0(losses/per epoch time),2)) + 
') (epoch ' + str(round(epoch,2)) + 
') C €! [(ür reg) ' + '(! + str 

(round((np.log10(1r)),2)) + 
' ! + str(round((np.logi10(reg)),2)) 
-C)]' + '_' + ' ' + optimizer + 
' 14 regulation + ' ' + 


activation + '.png') 


self.context[0] = lr 
self.save checkpoint('checkpoint ' + '(loss ' + 


str(round(np.log10(losses/per epoch time), 


2)) + '). (epoch ' + str(round(epoch,2)) + 
+ [(üir reg) ' + '(' + strí(round 
((np.1og10(1r)),2)) + ' ' + str(round 
((np.log10(reg)),2)) + )] + '_' + 

' |! + optimizer + ' '+ regulation + ' ' + 


activation + '.npy') 
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lr * = lr decay & 使 用 指数 衰减 进行 学 习 率 退火 


self.test(batch, activation) 


def 


. methods check(self, optimizer, regulation, 
activation): 

self.check optimizer (optimizer) 

self.check regulation(regulation) 

self.check activation(activation) 


Gstaticmethod 


def 


def 


. gen lr reg(lr = [0, -6], reg = [-3, -6], num try = 10): 
minlr = min(lr) 

maxlr = max(lr) 

randn = np.random.rand (num try*2) 


lr array = 10** (minlr + (maxlr-minlr)*randn[0: num try]) 


minreg - min(reg) 

maxreg - max(reg) 

reg array = 10**(minreg + (maxreg-minreg)*randn 
[num try: 2*num try]) 

lr regs - zip(lr array, reg array) 


return lr. regs 


train random search(self, lr - [-1, -5], reg - [-1, 
-5], num try = 10, epoch more = 1, batch = 64, 1r decay 
= 0.8, mu = 0.9, optimizer = 'Nesterov', regulation 
- 'L2', activation - 'ReLU'): 
self. methods check(optimizer, regulation, 
activation) 
self.featuremap shape() 
lr regs = self. . gen lr reg(lr, reg, num try) 
for lr reg in lr regs: 
try: 
self.init. params() 
self.context = [*lr reg, batch, lr. decay, 
mu, optimizer, regulation, activation] 


self.  train(epoch more, *lr reg, batch, 
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lr decay, mu, optimizer, regulation, 
activation) 
except KeyboardInterrupt: 
pass 


def train from checkpoint(self, epoch more - 10, 


def 


def 


checkpoint fname = ''): 

self.load checkpoint (checkpoint fname) 

[lr, reg, batch, lr decay, mu, optimizer, regulation, 
activation] - self.context 

lr = np.double(lr) 

reg - np.double(reg) 

batch = np.int (batch) 

lr. decay = np.double(lr. decav) 

mu = np.double (mu) 

self.  train(epoch more, lr, reg, batch, lr decay, 


mu, optimizer, regulation, activation) 


test from checkpoint(self, checkpoint fname): 

self.load checkpoint (checkpoint fname) 

[lr, reg, batch, lr decay, mu, optimizer, regulation, 
activation] - self.context 

batch = np.int (batch) 


self.test (batch, activation) 


test (self, batch, activation): 
self.load test data() 


accuracys - np.zeros(shape - (self.test labels. 
shape[0],)) 
for i in range(0, self.test labels.shape[0], batch): 
batch data = self.test data[i:i-«batch,:] 
label = self.test labels[i:i-«batch] 
accuracys[i:i-«batch] = self.predict (batch data, 
label, activation) 


accuracy = np.mean(accuracys) 
print('the test accuracy: $.5f' $ accuracy) 


return accuracy 
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其 中 ， 主 要 函数 的 功能 如 下 。 


Q. shuffle data 用 于 打 乱 训练 集 和 验证 集 的 样本 。 
Q methods check 用 于 检查 方法 的 合理 性 。 
Q gen 1r reg 用 于 产生 随机 学 习 率 和 正则 化 系数 。 

Q. train 用 于 进行 训练 。 每 一 轮训 练 时 , 首先 打 乱 样本 , 然后 
取 批 量 样本 进行 前 向 、 反 向 和 参数 更 新 ， 最 后 可 视 化 结果 。 数 
据 损失 、 训 练 和 验证 批量 样本 的 准确 率 与 第 一 层 权 重 的 更 新 率 
进行 可 视 化 。 每 轮训 练 结束 后 ， 保 存 结果 和 学 习 率 指数 退火 。 
训练 结束 后 ， 计 算 测 试 集 的 准确 率 。 

O train random search 是 随机 搜索 训练 方法 ， 其 中 self. 


context = [*lr. reg, batch, lr decay, mu, optimizer, 
regulation，activation] 保 存 了 训练 模型 的 上 下 文 。 

Q train from checkpoint 从 保存 的 文件 中 加 载 模型 继续 训练 。 
O test from checkpoint 从 保存 的 文件 中 加 载 模型 来 计算 测 
试 集 准确 率 。 

O test 用 于 计算 测试 集 的 准确 率 。 


9.7 VGG 网 络 结构 


VGG 网 络 结构 类 似 如 下 的 网 络 结构 : INPUT — [CONV 一 POOL] 一 
[CONV x 2 — POOL] x2 — [CONV x5— POOL]x2—FCx2—FC, 
我 们 应 该 如 何 表示 该 结构 呢 ? 可 以 采用 第 8 章 的 方法 ， 利 用 list Zh 
构 存 储 网 络 结构 ， 如 struct = ['conv 16 5 2 2'] + ['pool'] + 
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['conv. 32']*2 + ['pool'] + ['conv. 64']*3 + ['FC. 128'], 
其 中 各 个 参数 的 意义 如 下 。 


O conv 表示 卷 积 层 。 

O pool 是 池 化 层 〈 步 长 和 窗口 大 小 都 是 2 )。 

O rc 表示 全 连接 层 。 

O conv 16 5 2 2 具体 表示 输出 16 个 特征 图 , 其 卷 积 核 大 小 为 
5， 步 长 为 2，0 填充 为 2。 

口 conv_64 表示 输出 64 个 特征 图 ， 卷 积 核 大 小 为 3， 步 长 为 1， 
0 填充 为 1。 


O rc 128 表示 输出 神经 元 有 128 个 。 


整个 结构 表示 输入 层 后 面 接 卷 积 层 conv 16_5_2_2， 经 过 一 系 
列 中 间 层 后 , Fc_128 层 后 接 全 连接 层 得 到 分 值 向 量 。 最 后 会 接 softmax 
层 得 到 损失 。struct = [] 表 示 采 用 线性 模型 。 


import numpy as np 


import re 


class VGGNet (object): 
def | init (self, struct - []): 
if len(struct) == 0: 
print('you are using linearity model!') 
Self. struct, parse(struct) 
Self. struct - struct 
self. struct += ['FC', 'softmax'] 


下 面 的 代码 对 结构 struct 进行 解析 ， 采 用 正则 表达 式 进 行 字符 
串 匹 配 , 得 到 每 层 的 超 参数 ( 注意 , 最 后 全 连接 层 采 用 Last FC 进行 
标记 ): 
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def | struct parse(self, struct): 
layers - [] 
for layer in struct: 
convfull = re.match('^conv (Mdí1,3]).. 
(\d{1})_(\d{1})_(\d{1})$', layer) 
convdefault = re.match('^conv (Ndí1,3))$', layer) 
pool - re.match('^pool$', layer) 
fc = re.match('^FC (Ad(1,4))$', layer) 
if convfull: 
layers.append(( int(convfull.group(1)), 
int(convfull.group(2)), 


int(convfull.group(3)), int(convfull. 
group(4)), 'conv')) 

elif convdefault: 
layers.append(( int(convdefault.group(1)), 


3,1,1,'conv')) 


elif pool: 

layers.append( (layers[-1][0], 'pool') ) 
elif fc: 

layers.append( (int(fc.group(1)), 'FC') ) 
else: 


raise ValueError('the layer must like conv 16. 
5 2 2 or conv. 16 or pool or FC 64') 


layers.append(('', 'Last FC')) 
self. layers params = layers 


根据 struct 结构 和 输入 图 像 的 属性 计算 各 层 特征 图 的 空间 尺寸 : 


def featuremap shape(self): 
maps. shape - [] 
in map shape - (self.im height, self.im width, 
self.im dims) 
maps shape.append(in map. shape) 
for layer in self. layers params: 
if layer[-1] ss 'bást FC: 
break 
elif layer[-1] -- 'FC': 


def 
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in map shape = (1, 1, layer[0]) 
elif layer[-1 


-- 'CcOnV': 

(out depth, filter size, stride, padding, 
not used) = layer 

out height - (in map shape[0] - filter size 
+ 2*padding)//stride + 1 


out width = (in map shape[1] - filter size + 
2*padding)//stride + 1 

in map shape - (out height, out width, 
out, depth) 


if out height « filter size or out width « 
filter size: 
raise ValueError('the cnn struct is not 


compatible with the image size!\n') 


elif layer[-1] == 'pool': 
filter size - 2 
stride - 2 
out height = (in map shape[0] - filter size) 
//stride + 1 
out width = (in map shape[1] - filter size) 


//stride + 1 
in map shape = (out height, out width, layer[0]) 
if out height « filter size or out width « 
filter size: 
raise ValueError('the cnn struct is not 
compatible with the image size!\n') 
else: 
pass 
maps shape.append(in map shape) 
Sself.maps shape = maps shape 


init params(self): 4 网 络 的 权重 和 偏 置 初始 化 

self. weights = [] 

self. biases = [] 

in depth - self.im dims 

out, depth = in depth 

for layer. param, map shape in zip(self. layers params, 
self.maps. shape): 
weight = np.array([]) 
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bias = np.array([]) 
if layer param[-1] -- 'Last FC': 
in depth = out depth 
out, depth - self.num class 
(weight, bias) = self.param init (out, depth, 
in depth, map. shape[0]*map shape[1]) 
elif layer param[-1] == 'FC': 
out, depth = layer. param[0 
in depth - map. shape[2] 
(weight, bias) = self.param init (out, depth, 
in depth, map. shape[0]*map shape[1]) 
elif layer. param[-1] -- 'conv': 


filter size = layer param[1] 


out, depth = layer. param[0 


(weight, bias) = self.param init (out, depth, 
in depth, filter size*filter size) 
elif layer. param[-1] -- 'pool': 
pass 
else: 
pass 


in depth - out depth 
self.  weights.append (weight) 
self.  biases.append (bias) 


Self.  vweights - [] 

Self.  vbiases = [] 

Self. cache biases = [] 

self. cache weights - [] 

for weight, bias in zip(self. weights, self.  biases): 
self.  vweights.append(np.zeros, like (weight)) 
self.  vbiases.append(np.zeros, like (bias)) 
self. cache weights.append(np.zeros like (weight)) 
self. cache biases.append(np.zeros like (bias) ) 


def reg loss(self, reg-10**(-5), regulation-'L2'): 
# 计算 正则 化 损失 
reg loss = 0 
for weight in self. weights: 
if weight.size !- 0: 


def 
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reg loss += self.norm reg(weight, reg, regulation) 


return reg loss 


forward(self, batch data, labels, reg-10**(-5), 
regulation-'L2', activation-'ReLU'): 4 前 向 计算 
self.  matric, data = [] 

self. filter data = [] 


Self.  matric data max pos = [] 


in maps - batch, data 
for layer param, weight, bias in zip(self. layers params, 
self. weights, self.  biases): 
matric data = np.array([]) 
filter data = np.array([l) 
matric data max pos = np.array([]) 
if layer param[-1] -- 'Last FC': 
# 最 后 全 连接 层 不 需要 激活 
(matric data, filter data, out maps) = 
Self.FC layer(in maps, weight, bias, 
self.num class, 1, activation) 
elif layer param[-1] == 'FC': 
(matric data, filter data, out maps) = 
Self.FC layer(in maps, weight, bias, 
layer param[0], 0, activation) 
elif layer param[-1] -- 'conv': 
(matric data, filter data, out maps) - 


self.conv layer(in maps, weight, bias, 


layer param[0:-1], activation) 


elif layer param[-1] -- 'pool': 
(out maps, matric data max pos) - 
self.pooling layer(in maps) 
else: 
pass 


in maps - out maps 


Self.  matric data.append(matric data) 
self. filter data.append(filter data) 
self.  matric data max pos.append 
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(matric_data_ max pos) 


self. __ probs = self.softmax layer(out maps) 
data, loss = self.data loss(self.  probs, labels) 
reg loss - self.reg loss(reg, regulation) 

return (data loss, reg. loss) 


def predict (self, batch data, labels, activation-'ReLU'): 
# 计算 批量 样本 的 准确 率 
in maps = batch data 
for layer param, weight, bias in zip(self. layers. 
params, self. weights, self.  biases): 
if layer param[-1] -- 'Last FC': 
# 最 后 全 连接 层 不 需要 激活 
(matric data, filter data, out maps) = 
Self.FC layer(in maps, weight, bias, 
self.num class, 1, activation) 
elif layer param[-1] == 'FC': 
(matric data, filter data, out maps) - 
Self.FC layer(in maps, weight, bias, 
layer param[0], 0, activation) 
elif layer. param[-1] -- 'conv': 
(matric data, filter data, out maps) - 
self.conv layer(in maps, weight, bias, 
layer param[0:-1], activation) 


elif layer param[-1] -- 'pool': 
(out maps, matric data max pos) - 
self.pooling layer(in maps) 
else: 
pass 
in maps - out, maps 
predicted class = np.argmax(out maps, axis = 3) 
accuracy - predicted class.ravel() -- labels 


return np.mean(accuracy) 


def dweight reg(self, reg = 10**(-5), regulation = 'L2'): 
# 正则 化 梯度 
for i in range(len(self.  weights)): 
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weight = self.  weights[i] 
if weight.size ! = 0: 
self.  dweights[-1-i] += self.dnorm reg 
(weight, reg, regulation) 


def backpropagation(self, labels, reg - 10**(-5), 
regulation = 'L2', activation = 'ReLU'): # 反 向 传播 


dscores - self.evaluate dscores(self.  probs, labels) 


dout, maps = dscores 
self.  dweights - [] 


self.  dbiases = [] 


for 


(layer param, maps shape, weight, 
matric data, filter data, matric data max pos) 

in zip(reversed(self. layers. params), 
reversed(self.maps shape), reversed(self. weights), 
reversed(self.  matric data), reversed(self. 

. filter data), reversed(self. matric data. 


max pos) ): 
if layer param[-1] -- 'Last FC': 
(dweight, dbias, din maps) - self.dFC layer 


(dout maps, matric data, filter data, 
weight, maps shape, 1, activation) 
elif layer param[-1] == 'FC': 
(dweight, dbias, din maps) - self.dFC layer 
(dout maps, matric data, filter data, 
weight, maps shape, 0, activation) 
elif layer param[-1] == 'conv': 
(dweight, dbias, din maps) - 
self.dconv layer(dout maps, matric data, 
filter data, weight, maps shape, 
layer param[1:-1], activation) 
elif layer param[-1] -- 'pool': 
dweight = np.array([]) 
[1) 


din maps - self.dpooling layer(dout maps, 


dbias = np.array( 


matric data max pos, maps shape) 
else: 


pass 
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dout maps = din maps 
self.  dweights.append(dweight) 
self.  dbiases.append(dbias) 


self.  dbatch data = din maps # 输入 图 像 的 梯度 


self.dweight reg(reg, regulation) 


def params, update(self, lr-10**(-4), t-1, mu-0.9, 
optimizer-'Nesterov'): # 参数 更 新 
self.update ratio = [] 


if optimizer -- 'adam': 


for i in range(len(self.  weights)): 
weight - self.  weights[i] 
bias = self.  biases[i] 
dweight - self.  dweights[-1-i] 
dbias = self. dbiases[-1-i] 
v weight - self.  vweights[i] 
v bias = self.  vbiases[i] 
cache weight - self. cache weights[i] 
cache bias = self._ cache biases[i] 
if weight.size !- 0: 

(update ratio w, weight, v weight, 
cache weight) = self.adam(lr 
weight, v weight, cache weight, 
dweight, t, mu) 

(update ratio b, bias, v bias, 


cache bias) = self.adam(lr, bias, 


v bias, cache bias, dbias, t, 


self. weights[i] = weight 

Self.  biases[i] = bias 

self.  vweights[i] = v weight 

self.  vbiases[i] = v bias 

self. cache weights[i] = cache weight 
Self. cache biases[i] = cache bias 


self.update ratio.append((update . 
ratio w,update ratio b)) 


if optimizer -- 'Nesterov': 


for i in range(len(self.  weights)): 
weight - self.  weights[i] 


def save ch 
with op 

np. 

np. 

np. 


np. 


np. 


np. 


for 


for 


for 


for 
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bias = self. | biases[i] 

dweight - self.  dweights[-1-i] 
dbias = self. dbiases[-1-i] 

v weight - self.  vweights[i] 
v bias = self.  vbiases[i] 

if weight.size !- 0: 

(update ratio w, weight, v weight) - 
Sself.nesterov momentumGD (lr, 
weight, v weight, dweight, mu) 

(update ratio b, bias, v bias) - 
self.nesterov momentumGD(lr, bias, 


v bias, dbias, mu) 


self.  weights[i] = weight 
self.  biases[i] = bias 

self.  vweights[i] = v weight 
self.  vbiases[i] = v bias 


self.update ratio.append((update . 
ratio w,update ratio b)) 


eckpoint(self, fname): 4 保存 模型 所 有 数据 
en(fname, 'wb') as f: 
save(f, np.array([3,1,4,1,5,9,2,8,8])) # 魔术 数 
save(f, np.array( self. struct) ) # 网 络 结构 
save(f, np.array([self.num class, self.im dims, 
self.im height, self.im width]) ) 
# 输入 图 像 属性 和 类 别 数 
save(f, np.array(self. layers, params)) 
t 每 层 超 参数 
save(f, np.array(self.maps shape)) 4 特征 图 空间 尺寸 
save(f, np.array(self.context)) # 训练 环境 上 下 文 
array in self. weights: # 网 络 参数 
np.save(f, array) 


array in self.  biases: 
np.save(f, array) 

array in self.  vweights: 
np.save(f, array) 

array in self.  vbiases: 


np.save(f, array) 
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for 


for 


array in self. cache weights: 
np.save(f, array) 
array in self. cache biases: 


np.save(f, array) 


def load checkpoint(self, fname): 4 载 入 模型 所 有 数据 
with open(fname, 'rb') as f: 


magic number - np.load(f) 


if not all(magic number -- np.array([3,1,4,1,5, 


9,2,8,8]): # 魔术 数 

raise ValueError('the file format is wrong! Mn') 

self. struct - np.load(f) 

print ('\n\nthe net struct is: Mn', self. struct) 

im property - np.load(f) 

self.num class, self.im dims, self.im height, 
self.im width = im property 

self. layers params - np.load(f) 

self.maps. shape = np.load(f) 

self.context - np.load(f) 

Self. weights = [] 

self.  biases = [] 

for i in range(len(self. layers params)): 
array - np.load(f) 
self.  weights.append (array) 

for i in range(len(self. layers params)): 
array - np.load(f) 
self.  biases.append(array) 

self.  vweights - [] 

Self.  vbiases = [] 

for i in range(len(self. layers params)): 
array - np.load(f) 
self.  vweights.append(array) 

for i in range(len(self. layers params)): 
array - np.load(f) 
self.  vbiases.append(array) 

self. cache weights - [] 

Self. cache biases = [] 

for i in range(len(self. layers params)): 
array - np.load(f) 
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self. cache weights.append (array) 
for i in range(len(self. layers params)): 
array - np.load(f) 
self. cache biases.append(array) 
print('the struct hyper parameters:Mn', 


self. layers, params) 


9.8 MNIST 数据 集 


在 http://yann.lecun.com/exdb/mnist/ E F $ MNIST 数据 集 ， 并 将 其 
保存 在 MNIST\ 目录 下 。 预 处 理 该 数据 集 时 , 只 是 简单 地 归 一 化 到 [0, 1]. 
相关 代码 如 下 : 


import numpy as np 


import gzip, struct 


class MNISTInterface(object): 
load the mnist dataset 
and shuffle split the train set into train and validation 
set the ratio of train and validation may be 7:3 
# 载 入 训练 集 ， 并 随机 分 为 训练 集 和 验证 集 
def load train data(self, num ratio): 
(imgs, labels) - MNISTInterface.get mnist train() 
# 数据 预 处 理 
imgs = imgs/255 # 归 一 化 到 [0，1] 
self.num samples = labels.size 
if isinstance(num ratio, int): 
self.num train samples - num ratio 
else: 
self.num train samples = 
int(self.num samples*num ratio) 


self.num val samples = self.num samples - 
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self.num train samples 
shuffle no - list(range(self.num samples)) 
np.random.shuffle(shuffle no) 
imgs - imgs[shuffle no] 
labels - labels[shuffle no] 
self.train data - imgs[0:self.num train samples] 
self.train labels - labels[0:self.num train samples] 
self.val data - imgs[self.num train samples::] 


self.val labels - labels[self.num train samples::] 
Self. set data pro() 
# 载 入 测试 集 
def load test data(self): 
(imgs, labels) - MNISTInterface.get mnist test() 
# 数据 预 处 理 
imgs = imgs/255 # 归 一 化 到 [0，1] 
self.test data = imgs 
Self.test labels = labels 
Self. set data pro() 
# 设置 数据 集 超 参 数 
def | set data pro(self, num class=10, im height-28, 
im width-28, im dims-1): 


self.num class - num class 


self.im height - im height 
self.im width = im width 
Self.im dims = im dims 
# 读 图 像 和 标签 数据 
Gstaticmethod 
def | read(image, label): 
mnist dir = 'MNIST/' 4$ 存储 数据 集 的 目录 
with gzip.open(mnist dir + label) as flbl: 
magic, num = struct.unpack("»II", flbl.read(8)) 
label = np.fromstring(flbl.read(), dtype = np.uint8) 
with gzip.open(mnist dir + image, 'rb') as fimg: 
magic, num, rows, cols = struct.unpack("»IIII", 
fimg.read(16)) 


image - np.fromstring(fimg.read(), dtype - np.uint8). 


reshape(len(label), rows, cols) 
return (image, label) 
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Gstaticmethod 


def get mnist train(): 


train img, train label = MNISTInterface. read 


('train-images-idx3-ubyte.gz', 


'train-labels-idx1-ubyte.gz') 


train img = train img.reshape((*train img.shape,1)) 


# 转变 为 4D 特征 图 


return 


Gstaticmethod 


(train img, train label) 


def get mnist test(): 
test img, test label - MNISTInterface. read 


('t10k-images-idx3-ubyte.gz', 
't10k-labels-idx1-ubyte.gz') 


test img - test img.reshape((*test img.shape,1)) 


return 


9.9 梯度 检 


(test img, test label) 


3) 


梯度 检测 代码 如 下 : 


import numpy as np 


from vgg net import VGGNet 


from cnn block interface import CnnBlockInterface 


from regulation interface import RegulationInterface 


class VGGTes 
def set 


t(VGGNet, CnnBlockInterface, RegulationInterface): 


.data pro(self, num class-4, im height-32, 


im width-32, im dims-3): 


sel 
sel 
sel 
sel 


f.num_class = num class 
f.im height = im height 
f.im width - im width 


f.im dims - im dims 


def gen random data(self): 
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self.num samples = self.num class*20 4 每 类 20 个 样本 
self.data = np.random.randn(self.num samples, 


self.im height, self.im width, self.im dims) 
self.labels = np.random.randint(self.num class, 


Size - self.num samples) 


def check gradient(self, check weight or bias-1, 
step-10**(-5), reg-10**(-1), regulation-'L1', 
activation-'ELU'): 
# check weight or bias 等 于 1 时 ， 检 测 权 重 ; 等 于 0 时 ， 
检测 偏 置 
self.set data pro() 
self.gen random data() 
self.featuremap shape() 
self.init params() 
for layer in range(len(self.maps shape)): 4 每 层 都 检测 
if check weight or bias: 
weight = self. VGGNet  weights[layer] 
# 注意 如 何 引用 私有 成 员 
if weight.size -- 0: 
continue 
else: 
row - np.random.randint (weight.shape[0]) 
col - np.random.randint (weight.shape[1]) 
param = weight [row] [col] 
else: 
bias = self. VGGNet  )biases[layer] 
if bias.size -- 0: 
continue 
else: 
row = np.random.randint (bias.shape[1]) 
param = bias[0] [row] 


(data loss, reg loss) - self.forward(self.data, 
self.labels, reg, regulation, activation) 
self.backpropagation(self.labels, reg, regulation, 

activation) 
if check weight. or bias: 
danalytic = self. VGGNet  dweights[-1-layer] 


if 
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[row] [col] 
else: 
danalytic = self. VGGNet  dbiases[-1-layer] 
[0] [row] 


if check weight or bias: 
self. VGGNet  weights[layer][row][col] = 
param - step 
else: 
self. VGGNet  biases[layer][0][row] = param - step 
(data loss1, reg loss) = self.forward(self.data, 
self.labels, reg, regulation, activation) 
loss1 = data loss1 + reg loss 


if check weight or bias: 
self. VGGNet  weights[layer][row][col] - 
param + step 


else: 
self. VGGNet  biases[layer][0][row] = param 
+ step 
(data loss2, reg loss) - self.forward(self.data, 


self.labels, reg, regulation, activation) 
loss2 = data loss2 + reg loss 
dnumeric = (loss2 - loss1)/(2*step) 


print (layer, data loss1, data, loss2) 
error relative - np.abs(danalytic - dnumeric)/ 
np.maximum(danalytic, dnumeric) 


print(danalytic, dnumeric, error relative) 


name se ^ duart. is. 
网 络 结构 
struct = ['conv 32 5 1 0'] + ['pool'] + ['conv. 64'] + 


['pool']+ ['conv. 128']*2 + ['pool'] + ['conv. 256'] + 
[*EC-100*] 
= VGGTest(struct) 4 创建 网 络 实例 


vgg.check_gradient (check weight or bias-1, 


step-10**(-5), reg-10**(-5), regulation-'L2', 
activation-'ELU') 
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采用 上 面 的 参数 设置 ， 梯 度 的 相对 误差 在 10** (-9) 左 右 时 ， 说 
明 梯 度 计算 正确 。 读 者 可 以 采用 不 同 的 参数 组 合 进行 测试 。 


9.10 MNIST 数据 集 的 训练 结果 


MNIST 数据 集 的 训练 : 


from vgg net import VGGNet 

from cnn block interface import CnnBlockInterface 
from cnn train interface import CnnTrainInterface 
from optimizer interface import OptimizerInterface 
from regulation interface import RegulationInterface 
from MNIST interface import MNISTInterface 


class VGGTest(MNISTInterface, VGGNet, CnnBlockInterface, 
CnnTrainInterface, OptimizerInterface, RegulationInterface): 
pass 4 无 须 任何 代码 


if name == t main _': 
struct = [] 4 线性 模型 
struct = ['FC.64'] # 只 有 一 个 隐 含 层 的 神经 网 络 
struct - ['conv. 8'] « ['pool'] + ['conv. 12']*3 + ['pool'] -« 


['conv 36']*3 + ['pool'] + ['FC 64'] 
vgg - VGGTest(struct) 
num samples - 0.7 
vgg.load train data(num samples) 
train - 1 
scratch = 1 
if train: 
if scratch: 
vgg.train random search(lr-[-1.0, -5.0], 
reg-[-3, -5], num try-10, epoch more-2, 
batch-64, lr decay-1, mu-0.9, 


optimizer-'adam', regulation-'L2', 
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activation='ELU') 4 超 参 数 随机 搜索 
else: 
vgg.train from checkpoint (epoch more-2, 
checkpoint, fname-'checkpoint . 
(loss. -1.07). (epoch, 2) [(1r reg). (-3.0 
-3.0)].. adam L2 ELU.npy') # 从 保存 点 继续 训练 


else: 
# 从 保存 点 计算 测试 集 准确 率 
vgg.test from checkpoint('checkpoint 
(loss, -1.0). (epoch, 4) [(1r reg). (-4.0 -4.0)].. 
adam L2 ELU.npy') 


下 面 给 出 一 些 有 趣 的 结果 。 采 用 上 面 的 网 络 结构 ， 训 练 两 轮 ， 测 
试 集 的 准确 率 在 97.5% 左右 ， 训 练 过 程 的 性 能 曲线 如 图 9.1 所 示 ， 准 
确 率 上 升 很 快 ， 损 失 值 波动 很 大 ， 过 拟 合 不 明显 ， 参 数 更 新 率 在 
10**(-3.5) 左 右 。 这 表明 学 习 率 大 了 , 减 小 学 习 率 ,需要 训练 8 轮 
左右 ， 最 终 准确 率 可 达 98.7% 左右 。 
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9.1 ”训练 过 程 ( 另 见 彩 插 ) 


update ratio 


— 


采用 struct = [] 线 性 模型 时 ， 训 练 两 轮 ， 测 试 集 的 准确 率 在 
92% 左右 ， 训 练 过 程 的 性 能 曲线 如 图 9.2 所 示 ， 准 确 率 上 升 很 快 ， 损 
失 值 波动 很 大 ， 过 拟 合 不 明显 ， 参 数 更 新 率 在 10** (-3) 左 右 。 
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9.2 ”线性 模型 的 训练 过 程 ( 男 见 彩 插 


采用 struct = ['FC_641'] ,训练 两 轮 , 测试 集 的 准确 率 在 95.596 
左右 ， 训 练 过 程 的 性 能 曲线 如 图 9.3 所 示 ， 准 确 率 上 升 很 快 ， 损 失 值 
波动 很 大 ， 过 拟 合 不 明显 ， 参 数 更 新 率 在 10** (-2.5) 左 右 。 
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图 9.3 一 个 隐 含 层 ( 64 个 神经 元 ) 神经 网 络 模型 的 训练 过 程 ( 男 见 彩 插 ) 


上 面 的 结果 都 是 训练 集 样本 数 比例 为 0.7 得 到 的 , 现在 采用 不 同 的 
训练 样本 数 进行 训练 , 会 得 到 一 些 有 趣 结果 。 此 时 模型 都 为 struct = 


['conv 8'] + ['pool'] + ['conv 12']*3 + ['pool'] + 
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['conv_36']*3+ ['pool'] + ['FC 64'], 当 训 练 样本 数 为 40 
时 , 测试 集 的 准确 率 达 63.696, 400 个 达到 86.796, 3000 个 达到 93.0%, 
6000 个 达到 96.3%。 


9.11 程序 使 用 建议 


如 果 读 者 只 采用 类 似 于 VGG 的 网 络 进行 训练 ， 那 么 使 用 本 程序 


只 需 改 变 网 络 结构 ， 如 设置 struct = ['conv_64'] + ['pool'] + 
['conv_128']*2 + ['pool']+ [conv 256']*3+ ['pool' 

['conv 512']*3 + ['FC 1024'] + ['FC_1024'] 和 使 用 自己 的 
数据 集 及 数据 预 处 理 ， 然 后 直接 调用 超 参 数 随机 搜索 函数 进行 训练 ， 


保存 最 好 模型 的 参数 即 可 。 如 果 对 卷 积 网 络 进行 改进 , 只 需要 修改 9.7 
节 ， 其 他 模块 基本 无 须 修改 。 需 要 注意 ，Python 类 与 C++ 的 静态 类 
(其 所 有 属性 和 方法 在 定义 时 必须 全 部 声明 ,结构 很 清晰 ) 不 同 ， 它 是 
动态 类 ， 其 成 员 属 性 和 方法 是 运行 时 绑 定 的 , 在 定义 时 无 须 绑 定 ， 这 
个 特性 使 设计 类 十 分 灵活 ,但 也 很 容易 出 现 逻 辑 错误 , 造成 理解 困难 。 
举 个 例子 , 在 cnnTrainInterface 类 中 , 方法 — train 调用 了 方法 
forward, 但 是 该 类 中 并 没有 定义 forward， 也 没有 继承 forward, 
程序 仍 能 正常 运行 , EALE, HK, forward 是 调用 了 VvGGNet 
类 的 实现 ， 因 此 最 终 调用 forward 的 并 不 是 CnnTraininterface 类 ， 


而 是 VGCGTest。VGCGTest 类 继承 了 vGGNet 2$, 可 以 调用 forward, 
这 就 是 运行 时 绑 定 机 制 。 因 为 有 动态 绑 定 机 制 , 所 以 类 的 设计 可 以 十 
分 独立 ， 不 需要 复杂 的 继承 关系 。 


第 103 


卷 积 网 络 结构 的 发 展 


10.1 全 局 平均 池 化 层 


第 4 章 介 绍 了 卷 积 网 络 的 基本 结构 :首先 堆 释 一 个 或 多 个 卷 积 层 ， 
然后 接 一 个 池 化 层 ， 重复 此 模式 ， 最 后 接 多 个 全 连接 层 。 随 着 网 络 加 
深 ,特征 图 深度 变 大 ， 空 间 尺 寸 变 小 ， 最 后 一 个 特征 图 的 空间 尺寸 一 


般 为 7x7。 这 种 模式 存在 一 个 缺点 , 那 就 是 最 后 一 个 卷 积 层 变换 为 全 


连接 层 时 所 需要 的 参数 特别 多 。 以 VGG 网 络 为 例 ， 最 后 一 个 特征 图 
的 空间 尺寸 是 7x7, 深度 是 512, 后 面 全 连接 层 有 4096 个 神经 元 ,这 
个 变换 需要 的 权重 数量 为 7x7x512 x 4096= 102 760 448， 大 得 惊人 ， 
且 占 到 总 参数 138M 的 74%。VGG 网 络 后 面 还 有 两 个 全 连接 层 , 权重 
数量 分 别 为 4096 x 4096= 16 777 216 和 4096 x 1000 = 4 096 000, 这 3 


个 全 连接 层 的 权重 数量 占 到 总 参数 的 9096, 
的 内 存 和 计算 资源 ， 而 且 容 易 引 起 过 拟 合 ， 
后 面 全 连接 层 的 作用 , 是 把 7x7 x 512 特征 


参数 巨大 ， 不 仅 消耗 大 量 
导致 泛 化 性 能 变 差 。 分 析 
图 变换 为 1000 维 的 分 值 向 
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量 。 为 了 达到 这 个 目的 ,我们 可 以 分 两 步 : 先 把 7x7 x512 特征 图 变 
换 为 1x 1x 512 的 特征 图 , 然后 接 1000 个 神经 元 的 全 连接 层 得 到 分 值 
向 量 。7 x 7x512 特征 图 变换 为 1 x 1x 512 的 特征 图 ， 可 以 不 需要 任 
何 参 数 ， 只 需 对 每 个 7x7 特征 图 进行 处 理 , 得 到 一 个 输出 值 ， 犹 如 池 
化 层 。 池 化 是 2x 2 的 空间 得 到 一 个 输出 值 ,一 般 采 用 最 大 值 或 平均 值 。 
这 里 采用 7 x7 特征 图 的 平均 值 作为 输出 值 , 称 为 全 局 平均 池 化 层 。 这 
FÉ, 把 7x7x512 特 征 图 变换 为 1000 维 的 分 值 向 量 , 需要 的 权重 数量 
仅 为 512 x 1000 = 512 000 ~ 0.5M! 全 局 平均 池 化 层 的 学 习 容量 显然 
低 于 全 连接 层 ,， 虽然 从 表面 看 会 降低 网 络 性 能 ， 但 实际 上 由 于 参数 大 
幅 减 小 ， 不 容易 过 拟 合 ， 全 局 平均 池 化 层 对 性 能 几乎 没有 影响 ， 甚 至 
有 时 效果 更 好 。 全 局 平均 池 化 层 还 有 一 个 额外 的 好 处 ， 即 不 论 网 络 
输入 的 图 像 尺寸 是 多 少 ， 最 后 一 个 特征 图 均 可 表示 为 hxw xd， 对 每 
个 hxw 取 平均 值 ， 所 以 输出 总 是 4d 维 向 量 ,再 接 全 连接 层 ， 得 到 分 值 


向 量 。 


全 局 平均 池 化 层 有 两 种 实现 方式 ， 一 种 如 前 面 例子 所 示 ， 全 局 平 
均 池 化 层 后 接 全 连接 层 得 到 分 值 向 量 ; 男 一 种 是 全 局 平均 池 化 层 的 输 
出 直接 作为 分 值 向 量 ， 此 时 只 需 最 后 一 层 特征 图 的 深度 等 于 类 别 数 。 
第 一 种 方式 的 优点 是 网 络 结构 比较 灵活 ， 全 连接 层 前 提取 的 特征 更 具 
有 普遍 性 ， 迁 移 能 力 强 ， 所 以 实践 中 多 采用 第 一 方式 。 


全 局 平均 池 化 层 的 代码 如 下 : 


def global average pooling layer(in data): 


in data.shape - [batch,in height,in width,in depth] 
out data.shape = [batch,out height = 1,out width = 1, 
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out depth = in depth] 


(batch,in height,in width,in depth) = in data.shape 
out height - 1 
out width - 1 


out depth - in depth 
out data = np.zeros((batch, out height, out width, 
out, depth) ) 


for i batch in range(batch): 
for i map in range(in depth): 
out data[i batch,:,:,i map] - np.mean( 
in data[i batch,:,:,i map]) 


return out data 


def dglobal average pooling layer(dout data, maps shape): 


dout data.shape - [batch,out height - 1,out width - 1, 
out depth - in depth] 

(in height,in width,in depth) - maps shape 

batch = dout data.shape[0] 

din data - np.zeros((batch,in height,in width, 


in depth)) 


in size - in height*in width 
for i batch in range(batch): 
for i map in range(in depth): 
din data[i batch,:,:,i map] - dout data 
[i batch,:,:,i map]/in size 


return din, data 


10.2 去掉 池 化 层 


第 4 童 介绍 了 池 化 层 的 主要 目的 是 减 小 特征 图 的 空间 尺寸 ， 其实 
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采用 步 长 为 2 的 卷 积 层 同 样 可 以 减 小 特征 图 的 空间 尺寸 ， 所 以 池 化 层 
就 没有 存在 的 必要 了 。 有 两 种 取代 池 化 层 的 方式 : 第 一 种 是 把 池 化 层 
的 前 一 个 卷 积 层 的 步 长 变 为 2; 第 二 种 是 额外 增加 一 个 卷 积 层 来 取代 
池 化 层 。 举 例如 下 ， 假 设 原始 网 络 为 struct = ['conv 8'] + 
['pool'] + ['FC 64']， 则 第 一 种 方式 的 网 络 变 为 struct = 
[conv 8 3 2 1'] + ['FC_64']， 第 二 种 方式 的 网 络 为 struct = 
['conv_8'] + ['conv_8_3_2_1'] + ['FC_64']。 两 种 方式 各 有 
优 缺 点 : 第 一 种 方式 的 优点 是 不 需 增加 参数 数量 ， 前 一 个 卷 积 层 由 于 
步 长 为 2, 计算 量 减 小 , 缺点 是 由 于 步 长 为 2, 损失 了 部 分 信息 ,会 使 
网 络 性 能 稍微 变 差 一 些 ; 第 二 种 方式 的 优点 是 没有 损失 任何 信息 ， 不 
会 使 网 络 性 能 变 差 .缺点 是 额外 增加 了 一 个 卷 积 层 ， 因 此 参数 数量 与 
计算 量 增加 。 


10.3 网络 向 更 深 更 宽 发 展 面临 的 困难 


在 深度 学 习 时 代 , 网 络 规模 越 来 越 大 , 这 表现 在 网 络 的 深度 加 深 ， 
宽度 加 大 。 但 如 果 只 是 简单 地 加 深 或 加 宽 , 不 一 定 能 带 来 性 能 的 提升 。 
采用 基本 结构 ， 每 个 卷 积 层 变换 需要 的 权重 数量 为 in_qepth x F x 
F x out_depth， 网 络 变 宽 ， 则 超 参数 in_dqepth 和 out depth 
都 会 变 大 ， 导 致 参数 数量 变 大 ， 计 算 量 增 大 上 且 容 易 导 和 歼 过 拟 合 。 网 络 
变 深 时 ， 如 6.3 节 的 误差 反 向 传播 算法 所 示 ， 损 失 对 权重 的 梯度 包含 
激活 函数 梯度 的 连 乘 积 ， 网 络 越 深 ， 该 乘积 为 0 的 概率 越 高 ， 导 致 大 
部 分 梯度 为 0， 权重 不 能 得 到 有 效 更 新 ， 难 以 优化 深层 网 络 。 
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10.4 ResNet 向 更 深发展 的 代表 网 络 


ResNet 结构 通过 学 习 残 差 ， 有 效 克服 了 深层 网 络 的 优化 难题 
为 了 对 比 ， 这 里 先 把 63 节 的 内 容重 复 一 遍 。 令 深度 神经 网 络 的 每 层 
神经 元 的 数量 为 1， 忽 略 偏 置 。 神 经 网 络 用 于 回归 任务 ， 则 数学 模 
型 为 : 


1 = XWw,h = f(a) 


EM = f(a) 
: (10.1) 


a, =h, w,,h, — a, 


n? 


loss =, -yy 


注意 ， 上 式 中 令 加 等 于 x，f'(a,) 等 于 1。 其 中 x 是 输入 , yo 是 x 对 应 
的 标签 ， 即 需 拟 合 的 真实 值 ，h, 是 网 络 的 预测 值 ，fx) 是 非 线 性 激活 函 
数 。 对 每 层 求 偏 导 数 ， 然 后 进行 连 乘 ， 得 到 损失 loss 对 任 一 层 参数 w, 
的 梯度 : 


Ae -I ET TTA). (102) 


j=i+1 


上 面 的 网 络 中 ， 每 一 层 的 模型 都 是 h = fhiiwi)， 称 为 常规 模型 。 


如 果 改 为 下 面 的 模型 : 
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= f(x)w,h = a +x 


4 = ee, -a th, 
(10.3) 
a, — f(h,. a h =a tha 


loss - (a, - Y 


则 网 络 每 一 层 的 模型 都 是 h; — fU; 1)wit hi1， 称 为 残 差 模型 ,这 是 因为 
fhi 1)w:i = = hihia 只 需 学 习 输 入 和 输出 之 间 的 差 。 


进行 简单 代入 ， 可 以 得 到 任 一 层 的 输出 万: 
n - Swath (04) 


其 中 令 和 等 于 x*， 可 见 输入 ho 与 任 一 层 输出 直接 相连 ,这 种 连接 方式 
称 为 直 连 ( shortcut )， 直 连 能 极 大 地 降低 优化 难度 。 而 常规 模型 的 输 
出 为 : 


h, = f wf wa f Ovi) (10.5) 
输入 加 不 与 任 一 层 输出 直接 相连 ， 而 是 网 套 相连 。 


同样 采用 链 式 法 则 ， 对 每 层 求 偏 导数 ， 然 后 进行 连 乘 ， 得 到 损失 
loss 对 任意 一 层 参 数 wi 的 梯度 : 


cA 


"x xps, DS ha) (10.6) 


当 激 活 函 数 采用 ReLU 时 ， 如 果 梯 度 为 0， 则 单个 乘积 项 为 1; 如 果 激 
活 函 数 的 梯度 为 1， 则 单个 乘积 项 为 (1+w)。 由 于 权重 参数 较 小 ， 该 
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项 在 1 附近 。 这 这 样 总 的 乘积 [TU+ w f", 4» fk 1 附近 ， 避免 了 梯度 


j= i+l 


爆炸 ( 绝对 值 很 大 ) 或 消失 (绝对 值 趋向 0 )， 而 且 和 网 络 深度 n 无关。 
所 以 这 种 模型 能 优化 很 深 的 网 络 ， 例 如 ResNet WRA 1001 层 ， 而 在 
常规 模型 中 ， 网 络 深度 达到 50 层 时 就 很 难 优 化 了 。 

TRARA h= hi 1)with, |， 一定 注意 激活 和 权重 相 乘 的 顺序 ， 
先 激活 再 权重 相 乘 。 如 果 反 过 来 , 则 模型 为 ,=fhi_ w) thio HE K 
数 选 为 最 常用 的 ReLU 时 ， 因 为 其 输出 值 大 于 等 于 0， 所 以 有 > ha 
其 表达 能 力 就 受 限 了 ， 导 致 网 络 学 习 容量 低 。 


上 面 这 个 例子 中 ， 隐 含 层 只 有 一 个 神经 元 ， 当 隐 含 层 是 向 量 时 ， 
只 需 把 权重 看 成 矩阵 即 可 : 


h, = Sha W; + h (10.7) 
此 时 输入 层 n; VF HS h 的 维度 必须 相等 。 如 果 不 相等 ， 则 需 对 输 
AJ hi 进行 投影 ， 即 用 变换 矩阵 W, JERAJ hi 的 维度 变 为 与 输出 
层 hh 的 维度 相等 : 


h, 二 f (n )W, 十 hW, (10.8) 
如 果 需 进行 批量 标准 化 ， 则 残 差 模型 为 : 
h, 一 J(BN(, DW, 十 h (10.9) 


一 定 要 注意 顺序 : 先 批量 标准 化 ， 后 非 线性 激活 ， 最 后 权重 相 乘 。 如 
果 是 卷 积 网 络 ， 则 只 需 把 权重 相 乘 变 成 卷 积 运算 即 可 。 


在 实际 应 用 中 ， 注 意 需 先 对 输入 x 进行 权重 相 乘 后 ， 才 能 采用 残 
差 模块 。 
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10.5  GoogLeNet 向 更 宽 发 展 的 代表 网 络 


GoogLeNet 通过 使 用 1 x 1 的 卷 积 核 、 多 尺度 卷 积 核 和 特征 图 深 
度 方向 串 连 等 技术 ， 达 到 网 络 宽度 不 变 的 同时 ， 参 数 数量 和 计算 量 
相 比 基本 结构 也 减 小 了 。 其 基本 结构 如 网 10.1 所 示 ， 称 为 Inception 
模块 。 


cem 3x3 卷 积 | 5x5 卷 积 | 1x1 卷 积 | 
i 1x1 卷 积 | 1x1 卷 积 | 3 a 
iier d) < 一 一 一 ~ € 
上 一 层 


10.1 Inception 模块 


下 面 举例 说 明 Inception 模块 的 工作 方式 。 假 设 输入 的 特征 图 为 
28 x 28 x 192， 输 出 特征 图 为 28 x 28 x 256。 如 果 采 用 基本 结构 ， 卷 积 
核 尺 寸 为 3 x 3， 则 需要 的 权重 数量 为 192 x 3 x 3 x 256 = 442 368. 
Inception 模块 通过 3 路 卷 积 和 1 路 池 化 得 到 输出 特征 图 ， 有 具体 为 : 第 
1 路 是 1 x 1 卷 积 ， 输 出 64 个 特征 图 ， 所 需 权 重 数量 为 192 x 1 x 1 x 
64 = 12 288; 第 2 路 是 先进 行 1 x 1 卷 积 以 进行 降 维 ， 得 到 96 个 特征 
图 ,然后 进行 3 x 3 卷 积 , 输出 128 个 特征 图 , 该 路 所 需 的 权重 数量 为 
192x1x1x96+96x3x3x128=129 024; 第 3 路 和 第 2 路 类 似 ， 只 
是 采用 了 5 x 5 的 卷 积 核 ， 具 体 为 : 1 x 1 卷 积 得 到 16 MEER, 
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进行 5x5 卷 积 ， 输 出 32 个 特征 图 ， 所 需 的 权重 数量 为 192 x 1x1x 
16+16x5x5x32 = 15 872; 最 后 1 路 是 先进 行 3x3 的 最 大 值 池 化 
( 注意 步 长 为 1， 因 为 不 需要 降低 空间 尺寸 )， 然 后 1 x 1 卷 积 得 到 32 
个 特征 图 ， 所 需 的 权重 数量 为 192 x 1x 1x32 = 6144; 最 后 输出 的 特 
征 图 是 这 4 路 输出 特征 图 的 串 连 , 所 以 特征 图 数量 是 这 4 路 输出 之 和 : 
64+128+32+32 =256, 总 的 权重 数量 为 12 288+129 024+15 872+ 6144 
163 328, 是 基本 结构 权重 数量 442 368 的 3796, 有效 减 小 了 权重 数量 。 
注意 ， 每 个 卷 积 都 紧 跟 非 线性 激活 ， 包 括 4 个 1x 1 的 卷 积 。 


每 个 卷 积 层 变换 需要 的 权重 数量 为 in depth x F x F x 
out, depth, JE in depth 和 out_dqepth 不 变 的 情况 下 ，1 x 1 卷 积 
核 只 是 3 x 3 卷 积 核 权重 数量 的 1/9, 这 是 Inception 模块 能 减 小 参数 数 
量 的 基础 。 通 过 1 x 1 卷 积 进行 深度 降 维 , 减 小 3 x 3 和 5 x 5 卷 积 层 输 
入 in depth 的 大 小 , 从 而 减 小 参数 数量 , 这 也 是 广泛 使 用 1 x 1 卷 积 
的 原因 。 同时 使 用 3 种 卷 积 核 尺 寸 : 1 x 1、3 x3 和 5 x 5, 得 到 特征 图 ， 
这 是 为 了 提取 输入 特征 图 的 多 尺度 特征 。 一 般 情况 下 ,3 x 3 输出 的 特 
征 图 数量 最 多 ，1 x 1 其 次 ，5 x 5 最 少 ， 如 例子 的 128、64 和 32。 此 
外 ， 我 们 还 可 以 进一步 减 小 权重 数量 ， 如 把 5x5 的 卷 积分 成 2 个 
3 x3 的 卷 积 ，2 x 3 x3/5 x5 = 1825; 更 进一步 地 说 ， 把 3 x 3 的 卷 积 
分 成 1x3 和 3 x 1 两 个 卷 积 ，(1 x3+3 x 1)/3 x3=2/3。 


一 般 情 况 下 ，Inception 模块 的 输入 特征 图 的 空间 尺寸 在 35 x35 
以 下 ， 如 采 特 征 图 的 空间 尺寸 较 大 ， 仍 采用 基本 结构 。 
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10.6 ” 轻 量 网 络 


轻 量 网 络 是 指 网 络 的 参数 数量 和 计算 量 少 ， 能 在 移动 系统 ( 如 手 
BL) 中 使 用 ， 同 时 网 络 性 能 尽 可 能 高 。 目 前 ， 轻 量 网 络 都 去 掉 了 池 化 
层 ， 采 用 平均 池 化 层 代 替 全 连接 层 。 对 卷 积 网 络 的 核心 卷 积 层 也 进行 
了 改进 ， 使 其 参数 和 计算 量 减 少 。 卷 积 层 操作 是 采用 卷 积 核对 特征 图 
的 局 部 数据 进行 卷 积 ， 局 部 数据 是 指 空间 维度 数据 ， 但 深度 维度 是 全 
部 数据 ， 这 个 特性 在 第 4 章 中 反复 强调 过 。 轻 量 网 络 采用 分 离 卷 积 ; 
减 小 参数 数量 和 计算 量 ， 分 离 卷 积 是 对 空间 维度 和 深度 维度 进行 解 耦 
卷 积 , 即 先 采 用 1 x 1 的 卷 积 核 进行 深度 维度 卷 积 ,这 和 常规 卷 积 一 样 ， 
对 深度 维度 采用 全 部 数据 , 但 由 于 卷 积 核 的 尺寸 是 1x 1， 所 以 并 没有 
对 空间 维度 进行 卷 积 。 然后 采用 3 x 3 的 卷 积 核 进行 空间 维度 卷 积 , 不 
同 于 常规 卷 积 ， 深 度 维度 不 采用 全 部 数据 ， 而 是 逐 特征 图 进行 卷 积 ， 
即 每 个 特征 图 只 进行 一 个 3 x 3 的 卷 积 , 分 别 输出 一 个 特征 图 。 对 比 常 
规 卷 积 和 分 离 卷 积 的 参数 数量 和 计算 量 ， 假 设 输入 和 输出 特征 图 都 是 
hxwxd， 常 规 卷 积 时 卷 积 核 尺 寸 是 3 x 3， 则 权重 数量 为 3x3 xdx 
d-9d, 计算 量 为 hxwx3x3xdxd= 9d hw, 分离 卷 积 时 ， 深 度 维 
度 卷 积 采用 1 x 1 的 常规 卷 积 ， 则 权重 数量 为 1 x 1 xdxd = d, WA 
量 为 hxwx1x1xdxd= qhw; 空间 维度 卷 积 采 用 逐 特征 图 卷 积 ， 
卷 积 核 尺寸 为 3 x3， 权 重 数量 为 3x3 xd= 9d, IAEN hxwx3x 
3xd = 9dhw。 参 数 比 例 为 (02+9d)/ 9d? = 1/9 + Vd, 计算 量 比 例 为 
(d hw+9dhw) 94^ hw = 1/9+1/4。 由 于 4 一 般 远 大 于 9， 所 以 分 离 卷 积 
的 参数 数量 和 计算 量 都 是 常规 卷 积 的 1/9 到 1/8, 分 离 卷 积 的 主要 参数 
和 计算 量 都 来 自 1 x 1 深度 维度 卷 积 ，3 x 3 空间 维度 卷 积 可 忽略 不 计 。 
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下 面 以 Google 公司 2018 年 提出 的 MobileNetV2 网 络 为 例 介 绍 分 
离 卷 积 的 应 用 , 如 图 10.2 所 示 。 其中, 输入 特征 图 是 hxwxd。 首先 ， 
对 输入 特征 图 进行 步 长 为 1 的 1 x 1 深度 维度 的 卷 积 ,得 到 特征 图 hx 
wx (6q)。 注 意 ， 深 度 维度 增 大 为 原来 的 6 信 ， 以 提取 更 丰富 的 特征 。 
然后 ， 进 行 非 线 性 激活 。 接 着 进行 逐 特征 图 的 空间 卷 积 ， 卷 积 核 的 尺 
十 是 3 x3， 步 长 为 s。 当 s = 1 时 ， 空 间 尺 寸 不 变 ; 当 s = 2 时 ,空间 
尺寸 减 半 , 得 到 特征 图 (ws) x (w/s) x (6d), 然后 进行 非 线 性 激活 。 最后， 
再 一 次 进行 步 长 为 1 的 1 x 1 深度 维度 卷 积 ， 得 到 特征 图 (ws) x 
Qw/s) x 4d， 注意 此 卷 积 不 需要 接 非 线性 激活 。 如 果 步 长 s= 1, d'=d, 
则 采用 ResNet 结构 ( 即 shortcut 直 连 )， 把 输入 特征 图 加 到 最 后 一 个 
1 x 1 卷 积 层 的 输出 中 ,作为 模块 的 最 终 和 输出。 该 模块 称 为 逆 残 差 模块 
( inverted residual block )， 因 为 中 间 特 征 图 的 深度 维度 6d 大 于 输入 特 
征 图 的 深度 维度 4， 所 以 称 为 逆 ( 常规 残 差 模 块 的 中 间 特 征 图 的 深度 
度 更 小 )。 非 线性 激活 采用 ReLU6 = min(6, max(0, x))， 即 限制 最 大 
输出 值 小 于 6， 这 是 因为 轻 量 网 络 一 般 采 用 单 精度 浮 点 数 进行 计算 ， 
当 数值 大 于 6 时 ， 表 示 精 度 不 高 ， 会 造成 计算 误差 。 逆 残 差 模块 包含 
3 个 卷 积 层 ， 每 个 卷 积 输出 可 以 采用 批量 归 一 化 处 理 ， 以 加 快 训练 速 


度 ， 提 高 网 络 性 能 。 


3 


第 10 卷 积 网 络 结构 的 发 展 | 217 
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stride-1 模块 stride-2 模块 


图 10.2 MobileNetV2 网 络 分 离 卷 积 模块 一 一 逆 残 差 模块 


由 于 1x1 深度 维度 卷 积 的 广泛 使 用 和 轻 量 网 络 的 重要 性 , 下 面 将 
给 出 这 些 算法 的 Python 代码 实现 。 请 读者 注意 , 这 里 没有 实现 批量 归 
二 :化 


10.6.1 1x1 深度 维度 卷 积 代码 实现 


1 x 1 深度 维度 卷 积 是 常规 卷 积 的 特例 , 所 以 可 以 直接 采用 第 4 章 
的 代码 。 由 于 卷 积 核 是 1 x 1， 可 以 不 进行 特征 图 矩阵 化 ， 而 是 直接 获 
得 1 x 1 局 部 窗口 的 数据 ， 乘 以 权重 矩阵 〈 和 矩阵 乘法 )， 得 到 输出 特征 
图 的 1 x 1 局 部 窗口 数据 。 这 种 实现 的 计算 效率 远 高 于 常规 实现 , 而 且 
内 存 消耗 很 少 。 其 代码 和 第 4 章 很 类 似 ， 这 里 直接 给 出 代码 : 


def convi11 layer(in data, weights, biases, out depth, 


activation-'ReLU'): 


in data.shape - [batch,in height,in width,in depth] 
weights.shape = [in depth, out depth] 
biases.shape = [1, out, depth] 
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out data.shape = [batch, in height, in width, out depth] 
(batch, in height, in width, in depth) - in data.shape 
out data - np.zeros((batch, in height, in width, 
out depth)) 
for i batch in range(batch): 
for i height in range(in height): 
for i width in range(in width): 
out data[i batch, i height, i width, :] 
- np.dot(in data[i batch, i height, 
i width, :], weights) 


out data += biases 
# 此 处 可 以 加 入 批量 归 一 化 处 理 代码 
if activation !- 'None': 
out data - CnnBlockInterface.activation 
(out data, activation) 


return out data 
TES BE c EREE RIE I] VC ERAH SC, Hio AEZR FECI RUAB ENE 
法 进行 梯度 计算 ， 代码 很 简单 : 


def dconvill_ layer(dout data, out data, in data, weights, 


activation-'ReLU'): 
inputs: dout data, in data 
outputs: (dweights, dbiases, din data) 
if activation !- 'None': 

dout data - CnnBlockInterface.dactivation 

(dout, data, out, data, activation) 

dbiases - np.sum(dout data.reshape(-1, 

dout data.shape[-1]), axisz0, keepdims-True) 
(batch, in height, in width, in depth) - in data.shape 
din data - np.zeros like(in data) 
dweights = np.zeros  like(weights) 
for i batch in range(batch): 


第 10 章 ” 卷 积 网 络 结构 的 发 展 | 219 


for i height in range(in height): 
for i width in range(in width): 
dout depth data - dout data[i batch, 
i height, i width, :] 
in depth data - in data[i batch, 
i height, i width, :] 
dweights += np.dot(in depth data. 
reshape (in depth data.size,1), 
dout, depth, data.reshape 
(1,dout, depth data.size)) 
din data[i batch, i height, i width, :] 
+= np.dot(dout, depth data, 
weights.T) 


return (dweights, dbiases, din data) 


10.6.2 ”3 x 3 逐 特征 图 的 卷 积 代码 实现 


这 里 卷 积 核 是 3x3。 首 先 ， 获 得 3 x 3 局 部 窗口 数据 ， 然 后 乘 以 
权重 矩阵 〈 逐 元 素 相 乘 )， 得 到 输出 维度 为 3 x 3 x aepen 的 数据 ， 接 
着 对 每 个 3 x 3 的 数据 求 和 ， 得 到 的 aepcn 个 数据 即 为 输出 特征 图 的 
一 个 深度 维度 数据 。 其 代码 如 下 : 


def dwconv33_layer (in data, weights, biases, stride-1, 


activation-'ReLU'): 


in data.shape - [batch,in height,in width,in depth] 
weights.shape - [3, 3, in depth] 
biases.shape - [1, in depth] 


out data.shape - [batch, out, height, out width, in depth] 
(batch, in height, in width, in depth) - in data.shape 
out, depth - in depth 

filter size - 3 


padding - 1 
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out height = (in height - filter size + 2*padding) 
//stride + 1 
out width = (in width - filter size + 2*padding) 


//stride « 1 
out data = np.zeros((batch, out height, out width, 
out, depth) ) 


padding data = np.zeros((batch, in height + 2*padding, 
in width + 2*padding, in depth) ) 
padding data[:, padding : -padding, padding 


-padding, :] - in data 
height ef = padding data.shape[1] - filter size + 1 
width ef = padding data.shape[2] - filter size + 1 


for i batch in range(batch): 
for i h, i height in zip(range(out, height), 
range(0, height ef, stride)): 
for i w, i width in zip(range(out width), 
range(0, width ef, stride)): 


out window - weights*padding data 


[i . batch, i height : i height + 
filter size, i width : i width + 
filter size, :] 
out data[i batch, i h, i w, :] = 
np.sum(out window.reshape(-1, 
out window.shape[-1]), axisz0, 
keepdims-True) 
out data += biases 
# 此 处 可 以 加 入 批量 归 一 化 处 理 代码 
if activation !- 'None': 
out data - CnnBlockInterface.activation 
(out data, activation) 


return out data 


梯度 反 向 传播 过 程 和 正 向 流程 相反 ， 只 需 对 非 线性 激活 和 矩阵 逐 
元 素 乘 法 进行 梯度 计算 ， 其 代码 很 简单 : 
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def ddwconv33 layer(dout data, out data, in data, weights, 


Stride-1, activation-'ReLU'): 
inputs: dout data, in data 
outputs: (dweights, dbiases, din data) 
if activation !-  'None': 
dout data - CnnBlockInterface.dactivation 
(dout, data, out, data, activation) 
dbiases - np.sum(dout data.reshape(-1, dout data.shape 
[-1]), axis=0, keepdims-True) 
(batch, in height, in width, in depth) - in data.shape 
(batch, out height, out width, out depth) - 
out, data.shape 
din data - np.zeros like(in data) 
dweights - np.zeros like(weights) 


filter size - 3 

padding - 1 

padding height = in height + 2*padding 

padding width = in width + 2*padding 

padding data - np.zeros((batch, padding height, 
padding width, in depth) ) 

padding data[:, padding : -padding, padding 
-padding, :] = in data 

dpadding data = np.zeros like(padding data) 


height ef = padding height - filter size + 1 
width ef = padding width - filter size + 1 
for i batch in range(batch): 
for i h, i height in zip(range(out height), 
range(0, height ef, stride)): 
for i w, i width in zip(range(out width), 
range(0, width ef, stride)): 
dout, window - dout, data[i batch, i h, 


i_w, 
dweights += dout window*padding data 
[i batch, i height : i height + 
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filter size, i width : i width + 
filter size, :] 

dpadding data[i batch, i height 
i height + filter size, i width 
i width + filter size, :] += 
dout window*weights 

din data - dpadding. data[:,padding:-padding,padding: 
-padding,:] 


return (dweights, dbiases, din data) 


通过 上 面 两 个 算法 ， 我 们 希望 读者 对 梯度 反 向 传播 算法 的 理解 更 
深刻 ， 能 实现 一 些 复杂 函数 的 梯度 计算 。 


10.6.3” 逆 残 差 模块 的 代码 实现 


逆 残 差 模型 的 实现 很 简单 ， 具 体 如 下 : 


def inverted residual(in data, weights, biases, out depth, 

stride-1, expansion ratio-6, activation-'ReLU!'): 

out datalle = convi1 layer(in data, weights[0], biases[0], 
in data.shape[3]*expansion ratio, activation) 

out datadw33 = dwconv33 layer(out datalle, weights[1], 
biases[1], stride, activation) 

out datall = convi11, layer(out datadw33, weights[2], 
biases[2], out depth, activation-'None') 

if stride -- 1 and out depth -- in data.shape[3]: 
out, datall += in data # EE 

return (out, datall, out datadw33, out datalle) 


梯度 反 向 传播 的 代码 如 下 : 


def dinverted residual(dout, data, out, data, in data, 
weights, stride-1, activation-'ReLU'): 
(out, datall, out datadw33, out, datalle) = out, data 
if out datall.shape[3] == in data.shape[3] and 
out datall.shape[1] == in data.shape[1]: 
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out datall -= in data + 残 差 模型 


(dweights2, dbiases2, dout datadw33) = 
dconvi1, layer(dout data, out datall, 
out, datadw33, weights[2], activation = 'None') 
(dweightsl1, dbiasesi1, dout datalle) = 
ddwconv33. layer (dout, datadw33, out, datadw33, 
out datalle, weights[1], stride, activation) 


(dweights0, dbiases0, din data) = dconvi1 layer 
(dout datalle, out datalle, in data, weights[0], 


activation) 


if out datall.shape[3] == in data.shape[3] and 
out datall.shape[1] == in data.shape[1]: 
din data += dout data + ， 残 差 模型 
return ([dweights0, dweightsl1, dweights2], [dbiasesO, 


dbiasesl1, dbiases2], din data) 


10.7. ”注意 机 制 网 络 SENet 


在 GoogLeNet 和 ResNet 等 网 络 中 ，3D 特征 图 中 的 每 个 特征 图 都 
是 同等 重要 的 ， 那 么 是 否 可 以 给 每 个 特征 图 赋予 一 个 权重 ， 表 示 权 重 
大 的 特征 图 更 重要 ， 权 重 小 的 特征 图 相对 不 重要 ? 使 网 络 专注 于 重要 
的 特征 图 ， 这 就 是 注意 机 制 。 人 类 视觉 广泛 采用 了 注意 机 制 ， 我 们 会 
特别 关注 色彩 鲜艳 和 运动 中 的 物体 , 而 忽略 其 他 不 重要 的 内 容 。SENet 
通过 挤 压 和 激活 模块 ( Squeeze-and-Excitation ) 实现 这 一 想法 ，SENet 
是 ImageNet 最 后 一 届 (〈 即 2017 年 ) 的 冠军 网 络 。 


SENet 显 式 地 建 模 特征 图 之 间 的 相互 依赖 关系 ， 通 过 学 习 的 方式 
自动 获取 每 个 特征 图 的 重要 程度 ， 然 后 依照 这 个 重要 程度 提升 有 用 的 
特征 并 抑制 对 当前 任务 用 处 不 大 的 特征 。 首 先是 挤 压 操作 ， 将 每 个 二 
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维 的 特征 图 变 成 一 个 实数 ， 这 个 实数 在 某 种 程度 上 具有 全 局 感受 野 ， 
表征 在 特征 图 上 响应 的 全 局 分 布 ， 而 且 使 得 靠近 输入 的 层 也 可 以 获得 
全 局 的 感受 野 ， 这 一 点 在 很 多 任务 中 都 非常 有 用 。SENet 使 用 全 局 平 
均 池 化 作为 挤 压 操作 ， 即 把 每 个 特征 图 的 平均 值 作为 实数 输出 。 


其 次 是 激活 操作 ， 通 过 参数 w 来 为 每 个 特征 图 生成 权重 ,其 中 参 
数 w 被 用 来 学 习 显 式 地 建 模 特征 图 间 的 相关 性 。 具 体 是 采用 两 个 全 连 
接 层 组 成 一 个 瓶颈 结构 来 建 模特 征 图 间 的 相关 性 ， 并 输出 与 输入 特征 
数量 相同 的 权重 。 首 先 , 将 特征 维度 通过 全 连接 层 降低 到 输入 的 1/16, 
然后 经 过 ReLU 激活 后 再 通过 一 个 全 连接 层 升 回 到 原来 的 维度 。 相 比 
直接 用 一 个 全 连接 层 的 好 处 在 于 : (1) 具有 更 多 的 非 线 性 , 可 以 更 好 地 
拟 合 通道 间 复 杂 的 相关 性 ; (2) 极 大 地 减少 了 参数 量 和 计算 量 , 通过 一 
个 逻辑 函数 ( Sigmoid ) 获得 0~1 的 归 一 化 权重 。 


最 后 是 重 标定 〈scale ) 操作 ， 将 激活 输出 的 归 一 化 权重 看 作 每 个 
寺 征 图 的 重要 性 , 然后 通过 乘法 , 逐 特 征 图 地 加 权 到 先前 的 特征 图 上 ， 
完成 在 深度 维度 上 对 原始 特征 图 的 重 标定 。 


由 此 可 见 ， 挤 压 和 激活 模块 是 利用 3D 特征 图 的 全 局 信息 ， 通 过 
杂 的 全 连接 学 习 ， 得 到 每 个 特征 图 的 权重 ， 完 成 原始 特征 图 的 重 标 
。 它 是 一 个 独立 的 模块 ， 可 以 添加 在 各 种 网 络 结构 里 。 如 图 10.3 所 
示 ， 加 载 了 挤 压 和 激活 模块 的 网 络 ， 就 称 为 SENet。SENet 通过 增加 
恨 少 的 参数 和 计算 量 ， 就 能 显著 提高 网 络 的 性 能 。 


BE om 


> 
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图 10.3” 挤 压 和 激活 模块 加 在 Inception 模块 ( Zz ) I Residual 模块 (Æ ) 


第 11 章 


工程 实践 中 的 问题 


通过 前 面 章节 的 学 习 ， 现 在 可 以 采集 数据 集 、 设 计 网 络 结构 、 选 
定 超 参 数 、 训 练 模 型 ， 训 练 结 束 后 ， 部 署 模 型 ， 在 实践 中 检验 模型 效 
果 。 如 果 模 型 达到 预期 效果 ， 则 皆大欢喜 ; 如 果 没 有 达到 预期 效果 , 
我 们 该 如 何 提高 性 能 呢 ? 


入 | 


有 很 多 手段 可 以 改善 模型 性 能 : 采用 不 同 的 网 络 架构 ， 如 VGG 
和 ResNet 等 ; 改变 模型 容量 ， 如 增加 网 络 深度 或 宽度 ; 尝试 不 同 的 优 
化 算法 ， 如 Adam 优化 算法 ; 改变 超 参数 ， 如 更 改 学 习 率 和 正则 化 的 
强度 ; 尝试 批量 归 一 化 BN; 更 改 激活 函数 ， 如 ELU; 尝试 Dropout; 
增加 训练 时 间 ; 收集 更 多 数据 ; 收集 分 布 更 广 的 数据 。 


有 如 此 之 多 的 手段 ,我 们 该 如 何 根 据 实际 情况 选择 呢 ?” 为 了 使 模 
型 部 署 达到 预期 效果 ， 应 该 按 顺 序 确保 四 件 事 ' 


— 


E 
Ho 


首先 , 必须 确保 模型 在 训练 集 上 得 到 不 错 的 性 能 , 对 于 某 些 应 用 ， 
可 能 意味 着 达到 人 类 的 水 平 。 模 型 在 训练 集 效 果 不 好 ， 主 要 原因 是 从 
拟 合 ， 需 要 增加 模型 学 习 能 力 。 可 以 采用 的 手段 有 采用 更 好 的 网 络 构 
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、 增 大 模型 容量 、 更 好 的 优化 算法 如 Adam 、 更 改 学 习 率 和 减 小 正 
则 化 强度 、 采 用 不 同 的 激活 函数 如 ELU、 增 加 批量 归 一 化 BN 和 增加 
训练 时 间 。 


其 次 ,模型 在 验证 集 上 也 必须 有 好 的 表现 。 模 型 在 训练 集 效 果 好 
而 在 验证 集 不 好 ， 是 因为 模型 对 训练 集 过 拟 合 了 ， 或 者 训练 集 和 验证 
集 分 布 不 一 致 ， 对 应 的 改善 手段 有 ， 加 大 正则 化 强度 或 增 大 训练 集 。 


然后 ， 模 型 在 测试 集 上 也 要 有 好 的 表现 。 模 型 在 验证 集 上 性 能 不 
错 ， 但 测试 集 不 行 ， 这 可 能 意味 着 模型 对 验证 集 过 拟 合 了 ， 你 需要 往 
回 退 一 步 ， 使 用 更 大 的 验证 集 。 模 型 没有 对 验证 集 进行 学 习 ， 怎 么 会 
对 验证 集 过 拟 合 呢 ? 这 是 因为 模型 通过 验证 集 来 判断 各 种 改善 手段 的 
优 劣 ， 最 终 选 择 验证 集 效 果 最 好 的 模型 ， 所 以 在 不 断 的 尝试 过 程 中 ， 
会 对 验证 集 造 成 过 拟 合 。 


最 后 , 模型 部 署 中 必须 达到 预期 效果 , 使 用 户 满意 。 如 果 未 达到 ， 
这 意味 着 需要 退回 去 ,改变 验 证 集 、 测 试 集 或 评估 指标 。 因 为 如 果 模 
型 在 测试 集 上 做 得 很 好 ， 但 在 实践 中 表现 不 好 ， 这 通常 意味 着 测试 集 
分 布 和 实际 情况 不 符 ， 或 评 佑 指标 设置 得 不 够 好 。 


这 四 步 需要 反复 迭代 ， 比 如 在 开始 时 ， 训 练 集 和 验证 集 获 得 了 满 
意 性 能 ， 但 测试 集 效果 不 理想 ， 此 时 采用 更 大 的 验证 集 ， 就 有 可 能 
致 验证 集 性 能 下 降 ， 达 不 到 要 求 ， 此 时 又 采用 增 大 训练 集 手 段 ， 有 可 
能 导致 训练 集 效果 变 差 了 ， 这 样 又 回 到 第 一 步 ， 采 用 各 种 手段 来 提高 
训练 集 效 果 。 
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11.1 单一 数字 评估 指标 


如 前 所 述 ， 有 很 多 手段 可 以 改善 模型 性 能 ， 如 调整 超 参数 、 尝 试 
不 同 的 优化 算法 或 者 调整 模型 架构 和 规模 ， 如 何 评估 改进 后 的 模型 性 
能 呢 ? 这 就 需要 对 模型 设 定性 能 评 佑 指标 ， 且 指标 必须 是 单一 数字 评 
佑 指标 。 机 器 学 习 中 ， 最 常用 和 最 简单 的 评估 指标 是 准确 率 ， 即 预测 
正确 的 样本 占 总 样本 的 比例 ， 比 例 越 高 ， 说 明 性 能 越 好 。 与 其 相对 应 
的 ， 就 是 错误 率 ， 值 为 1 减 去 准确 率 。 在 计算 准确 率 过 程 中 ， 每 个 样 
本 都 同等 重要 ， 这 有 时 不 太 合适 。 垃 圾 邮件 检测 系统 中 ， 模 型 要 判断 
邮件 是 否 是 垃圾 邮件 ， 如 果 是 ， 则 邮件 放 入 垃圾 邮箱 ,但 当 正 常 邮 件 
被 误 判 为 垃圾 邮件 ， 则 对 用 户 损失 可 能 会 很 大 〈 比如 错过 一 场 重要 的 
会 议 ) 反之 , 垃圾 邮件 被 误 判 为 正常 邮件 的 损失 比较 小 , 用 户 只 需 把 
垃圾 邮件 移 到 垃圾 邮箱 ， 甚 至 什么 操作 都 不 需要 。 这 样 在 计算 错误 率 
时 ， 正 常 邮件 误 判 为 垃圾 邮件 的 权重 要 增加 ， 以 示 其 重要 性 。 具 体 增 
加 多 少 ， 根 据 应 用 来 定 。 这 就 是 加 权 错 误 率 ， 公 式 为 : 


Error= Ys 2 wI (yx y) 


(11.1) 


其 中 ，w; 是 权重 ，y; 是 样本 标签 ， 和 是 样本 预测 标签 ，1(y# ye 
指示 函数 ， 当 括号 内 值 为 真 时 ,函数 值 为 1， 否则 为 0。 同时 模型 的 损 
失 函 数 也 要 采用 对 应 的 加 权 形 式 。 


有 了 时， 不 仅 关 心 错误 率 ， 还 要 注意 模型 运行 时 间 ， 比 如 需要 多 长 
时 间 来 分 类 一 张 图 片 。 对 时 间 要 求 ， 一 般 只 需 运行 时 间 小 于 一 个 阔 值 
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(如 50 毫秒 )， 具 体 是 40 毫秒 ， 还 是 20 毫秒 ， 对 用 户 来 说 没有 差别 。 
此 时 ,选择 模型 , 能够 最 大 限度 提高 准确 度 , 同时 满足 运行 时 间 要 求 。 


还 有 一 种 情况 ,不仅 需 要 查 准 率 ， 还 需要 查 全 率 。 在 二 分 类 问题 
中 ， 查 准 率 是 指 在 已 经 被 判断 为 正 样 本 的 样本 总 数 中 ， 有 和 多少 是 真正 
的 正 样本 ， 查 全 率 是 指 所 有 正 样本 被 判断 为 正 样本 的 比例 。 比 如 在 宝 
石 鉴定 中 ,数据 集中 有 50 个 假 宝 石 ，50 个 真 宝石 ， 模 型 判断 结果 为 : 
50 个 假 宝 石 中 ,45 个 判断 为 假 宝石 ，5 个 判断 为 真 宝石 ; 50 个 真 宝石 
中 ,48 个 判断 为 真 宝 石 ， 2 个 判断 为 假 宝 石 ， 则 查 准 率 P 为 48/ (5+ 
48) = 90.6%， 查 全 率 R 为 48/50 = 96%。 一 般 情况 下 ,希望 把 真 宝 
石 都 挑 出 来 ， 即 希望 查 全 率 越 大 越 好 ， 这 样 模型 就 倾向 于 把 样本 都 判 
断 为 真 宝石 ， 因 此 假 宝 石 也 易于 判断 为 真 宝石 ， 所 以 查 准 率 会 下 降 。 
俗语 “宁可 错 杀 一 千 ， 不 可 放 过 一 个 "， 就 是 指 查 全 率 为 100%， 但 查 
准 率 很 低 ;“ 不 可 冤枉 一 个 好 人 ”就 是 指 查 全 率 很 低 ， 但 查 准 率 很 高 。 
做 到 查 准 率 和 查 全 率 都 很 高 是 比较 困难 的 , 查 准 率 和 查 全 率 是 矛盾 的 ， 
需要 综合 考虑 ， 结 合 查 准 率 P 和 查 全 率 R 的 标准 方法 是 FIM. Æ 
它们 的 调和 平均 值 ， 公 式 为 : 


2 
FI P R (12) 


对 于 上 面 例 子 ，F] 分 数 等 于 93.2%。 不 同 于 算术 平均 ， 调 和 平均 
更 重视 较 小 值 ， 取 个 极端 例子 ,假设 P=50%，R=100%， 即 把 所 有 
宝石 都 判断 为 真 宝石 ， 则 F] = 67%， 而 算术 平均 为 75%。 
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11.2 人 类 水 平 表现 


有 了 单一 数字 评估 指标 ， 通 过 不 断 改 进 模型 ， 指 标 会 越 来 越 好 ， 
那么 指标 有 没有 一 个 上 限 呢 ? 答案 是 肯定 的 ， 模 型 性 能 上 限 就 是 贝 叶 
斯 最 小 错误 率 ， 是 理论 上 可 能 达到 的 最 小 错误 率 ， 也 就 是 说 ， 没 有 任 
何 办 法 能 设计 出 一 个 模型 ， 使 错误 率 低 于 贝 叶 斯 最 小 错误 率 。 


贝 叶 斯 最 小 错误 率 是 理论 上 存在 ， 并 不 知道 具体 值 。 这 样 对 于 一 
个 实际 任务 ， 因 为 不 知道 最 小 错误 率 是 多 少 ， 如 果 一 直 优 化 下 去 ， 错 
误 率 下 降 会 越 来 越 慢 ， 付 出 的 代价 却 越 来 越 高 ， 到 最 后 ， 优 化 会 越 来 
越 不 划算 。 模 型 必须 停 在 某 个 位 置 ， 到 了 这 个 位 置 就 不 需 再 优化 了 。 
这 个 位 置 可 以 根据 实际 需求 来 定 ， 只 要 满足 应 用 就 可 以 。 近 年 来 ， 随 
着 深度 学 习 研 究 的 深入 ， 取 得 的 突破 越 来 越 多 ， 机 融 学 习 算 法 变 得 很 
好 ， 这 个 位 置 越 来 越 向 人 类 水 平 靠近 。 这 在 深度 学 习 时 代 前 ， 是 不 可 
想象 的 。 为 什么 机 器 学 习 系 统 要 和 人 类 表现 进行 比较 呢 ? 这 是 因为 让 
机 顺 达 到 人 类 水 平 是 自然 要 求 ， 机 器 做 人 类 做 的 事情 ， 代 替 人 类 做 事 
情 ， 甚 至 比 人 类 做 得 更 好 。 同 时 ， 随 着 深度 学 习 技术 的 发 展 ， 越 来 越 
多 的 特定 任务 已 经 达到 甚至 超过 普通 人 类 表现 了 。 


对 于 人 类 擅长 的 任务 ， 如 识别 图 像 、 听 写 音 频 或 阅读 文字 等 ， 人 
类 水 平 很 接近 贝 叶 斯 最 小 错误 率 。 所 以 对 于 这 类 任务 ， 用 人 类 水 平 作 
为 贝 叶 斯 最 小 错误 率 的 佑 计 是 十 分 合理 的 。 对 人 类 不 擅长 的 任务 ， 人 
类 水 平 远 差 于 贝 叶 斯 最 小 错误 率 ， 如 从 传感器 测量 数据 中 判断 设备 有 
没有 早期 故障 ， 要 估计 贝 叶 斯 最 小 错误 率 则 十 分 困难 。 
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为 了 加 深 对 人 类 水 平 表 现 的 理解 ， 以 观察 医院 彩超 图 像 诊 断 疾 病 
为 例 。 一 个 未 经 训练 的 普通 人 类 ， 在 此 任务 上 可 达到 5% 的 错误 率 ， 
普通 医生 达到 1% 的 错误 率 ， 专 家 错误 率 为 0.8% ， 专 家 团队 错误 率 为 
0.5%。 此 时 如 何 界 定 人 类 水 平 ? 是 5%、1%、0.8% 还 是 0.5%? 这 个 问 
题 上 ， 贝 叶 斯 最 小 错误 率 可 用 0.5% 估 计 ， 所 以 人 类 水 平定 义 为 0.5% 

合适 。 如 果 和 希望 机 器 代替 人 类 诊断 疾病 ， 机 器 错误 率 达 到 5%， 系 
统 基本 不 实用 ; 达到 0.8% 时 ， 系 统 比较 实用 ， 但 不 能 完全 取代 专家 ; 
如 果 达 到 0.5%， 则 完全 可 以 取代 人 类 。 


事实 证 明 ， 机 器 学 习性 能 改善 往往 相当 快 ， 直 到 超越 人 类 表现 之 
前 一 直 很 快 ， 但 当 超越 人 类 表现 时 ， 进 展会 变 慢 。 这 是 为 什么 呢 ? 一 
个 原因 是 在 很 多 任务 中 ， 人 类 水 平 接近 贝 叶 斯 最 小 错误 率 ， 当 系统 超 
越 人 类 表现 之 后 ， 也 许 没 有 太 多 改善 空间 了 。 第 二 个 原因 是 ， 只 要 系 
统 表现 比 人 类 表现 更 差 ， 就 可 以 通过 某 些 手段 来 提高 性 能 ， 比 如 人 工 
标记 更 多 的 数据 ， 一 旦 系统 超越 了 人 类 表现 ， 这 些 手段 就 没 那么 好 用 
了 。 比 如 ,不 能 通过 人 工 标记 更 多 的 数据 来 提高 系统 性 能 ， 因 为 系统 
是 通过 人 工 标签 进行 学 习 的 ， 性 能 不 可 能 超过 人 工 标记 水 平 。 


现在 对 于 很 多 问题 ， 机 需 学 习 已 经 超越 人 类 水 平 了 。 例 如 网 络 广 
告 (用 户 点 击 广告 的 可 能 性 )、 产品 推荐 ( 推荐 电影 或 书籍 之 类 的 任务 ) 
和 预测 某 人 会 不 会 偿还 贷款 。 注 意 所 有 这 些 例子 都 是 从 结构 化 数据 中 
学 习 的 ， 而 且 有 大 量 数据 可 供 学 习 。 这 些 应 用 中 最 好 的 系统 看 到 的 数 
量 可 能 比 任何 人 类 能 看 到 的 都 多 ， 因 此 可 以 比 人 类 更 敏锐 地 识别 出 
数据 中 的 统计 规律 。 对 于 自然 感知 任务 ， 如 识别 图 像 、 语 音 识别 或 自 
然 语言 处 理 ， 人 类 在 自然 感知 任务 中 往往 表现 非常 好 ， 机 顺 想 要 超越 
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人 类 会 更 难 一 些 。 但 在 今天 ， 有 些 自 然 感 知 任务 计算 机 已 经 超越 了 人 
类 平均 水 平 ， 比 如 一 些 医 疗 方面 的 任务 , 阅读 ECG 或 诊断 皮肤 瘤 , 或 
者 某 些 特定 领域 的 放射 科 读 图 任务 ， 也 许 超越 了 单个 人 类 的 水 平 。 


11.3 ”偏差 /方差 分 析 


一 旦 设 定 了 优化 目标 ， 比 如 人 类 水 平 表 现 ， 则 可 以 进行 偏差 / 方 
差分 析 来 指导 如 何 改善 模型 性 能 。 理 解 偏差 和 方差 的 关键 在 于 训练 集 
错误 率 和 验证 集 错误 率 。 为 了 方便 论述 ， 以 图 像 分 类 为 例 ， 假 设 人 类 
用 肉眼 识别 几乎 不 会 出 错 ， 人 类 表现 的 错误 率 几乎 为 0%， 则 贝 叶 斯 
最 小 错误 率 可 以 认为 是 0%。 


假设 训练 集 错 误 率 是 5% ， 验 证 集 错误 率 是 6%。 模型 对 训练 集 拟 
合 度 不 高 ， 是 欠 拟 合 ; 相反 ， 对 于 验证 集 效 果 却 是 合理 的 ， 因 为 验证 
集 错误 率 只 比 训练 集 的 多 1%， 所 以 这 种 是 “高 偏差 ”。 


假定 训练 集 错误 率 是 0.5%, 接近 人 类 水 平 表现 , 验证 集 错 误 率 是 
5%。 训 练 集 效 果 非 常 好 ， 而 验证 集 效 果 相 对 较 差 ,可 能 过 度 拟 合 了 训 
练 集 ， 称 之 为 “高 方差 ”。 


假设 训练 集 错 误 率 是 5%， 偏 差 相 当 高 ; 但 是 验证 集 的 评 佑 结果 
更 糟糕 ， 错 误 率 达到 10% ， 方 差 也 很 高 。 此 时 ， 以 降低 偏差 为 主 ， 虽 
然 方 差 也 高 。 


最 后 假设 训练 集 错 误 率 是 0.5% ， 验 证 集 错误 率 是 0.7% ， 偏 差 方 
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差 都 很 低 ， 是 追求 的 目标 。 


偏差 可 以 简单 地 认为 是 训练 集 错 误 率 与 贝 叶 斯 最 小 错误 率 之 差 ， 
差 值 越 大 ， 偏 差 越 大 ; 方差 可 以 简单 地 认为 是 验证 集 错误 率 与 训练 集 
错误 率 之 差 ， 差 值 越 大 ， 方 差 越 大 ,一般 情 况 下 ， 验 证 集 错误 率 大 于 
训练 集 错误 率 。 


首先 看 模型 的 偏差 高 不 高 , 如 末 偏 差 较 高 , 甚至 无 法 拟 合 训练 集 ， 
则 改善 手段 有 : 采用 学 习 容 量 更 大 的 网 络 ， 比 如 含有 更 多 隐藏 层 或 者 
隐藏 单元 的 网 络 、 花 费 更 多 时 间 来 训练 网 络 、 尝 试 更 先进 的 优化 算法 、 
选择 更 好 的 超 参数 等 。 


其 次 如 果 方 差 高 ， 最 好 的 解决 办 法 就 是 收集 更 多 数据 ， 其 次 是 加 
大 正则 化 强度 和 数据 增强 来 减少 过 拟 合 。 如 果 能 找到 更 合适 的 神经 网 
络 架 构 ， 有 时 会 同时 减少 方差 和 偏差 。 


一 般 倩 况 下 ， 我 们 降低 了 偏差 ， 方 差 会 相应 的 提高 一 些 ， 这 是 因 
为 偏差 低 ， 可 能 会 有 一 定 的 过 拟 合 ， 此 时 方差 会 升 高 。 同 理 ， 降 低 了 
方差 偏差 会 相应 的 提高 一 些 ， 这 是 因为 方差 低 ， 可 能 是 由 过 强 的 正 
则 化 产生 的 ， 此 时 对 训练 数据 的 拟 合 能 力 降低 ， 偏 差 会 升 高 。 当 前 的 
深度 学 习 和 大 数据 时 代 ， 只 要 持续 训练 一 个 更 大 更 好 的 网 络 ， 只 要 准 
备 了 更 多 数据 ， 那 么 也 并 非 只 有 上 述 两 种 情况 。 只 要 正则 化 适度 ,一 
个 更 大 的 网 络 便 可 以 在 不 影响 方差 的 同时 减少 偏差 ， 因 为 容量 大 的 网 
络 学 习 能 力 更 强 ， 能 更 好 的 拟 合 训 练 集 ; 采用 更 多 训练 数据 通常 可 以 
在 不 过 多 影响 偏差 的 同时 减少 方差 ， 因 为 训练 数据 增多 ， 网 络 能 更 好 
地 学 习 到 数据 的 本 质 模式 ， 从 而 提高 泛 化 性 能 ， 减 小 方差 。 
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局 差 /方差 分 析 指 明了 优化 方向 ， 人 类 水 平 表现 是 贝 叶 斯 最 小 错 
误 率 的 有 效 估计 ， 由 此 决定 是 专注 于 减少 偏差 还 是 方差 。 这 个 技巧 通 
常 很 有 效 ， 直 到 系统 性 能 开始 超越 人 类 ， 此 时 对 贝 叶 斯 最 小 错误 率 的 
估计 就 不 再 准确 了 ， 进 展 就 会 变 得 缓慢 。 


还 以 医院 的 彩超 图 像 诊 断 疾病 为 例 , 错误 率 0.5% 可 以 作为 贝 叶 斯 
最 小 错误 率 的 估计 。 当 模型 超越 人 类 表现 时 ,此 时 假设 模型 达到 0.3% 
训练 错误 率 和 0.4% 验 证 错误 率 。 现 在 偏差 是 多 少 呢 ?” 其 实 很 难 回答 ， 
训练 错误 率 是 0.390, 这 是 否 意味 着 过 拟 合 了 0.2% (0.596 — 0.396 ), 或 
者 贝 叶 斯 最 小 错误 率 其 实 是 0.1% 呢 ?也 许 贝 叶 斯 最 小 错误 率 是 
0.2%? 或 0.3% 呢 ?此 时 没有 足够 信息 来 判断 优化 算法 应 该 专注 减少 
偏差 还 是 减少 方差 ， 进 展会 变 慢 。 所 以 对 于 这 个 任务 ,一 旦 系统 超过 
0.5% 门 槛 ， 要 进一步 优化 就 没有 明确 选项 和 前 进 方向 了 。 


11.4 ”错误 分 析 


假设 模型 经 过 各 种 优化 手段 后 ,验证 集 错误 率 还 是 没有 达到 要 求 ， 
此 时 打算 收集 更 多 的 数据 ， 收 集 娜 方面 数据 更 有 效 ， 能 达到 事半功倍 
的 效果 ? 此 时 进行 错误 分 析 是 最 有 效 的 方法 ， 找 出 验证 集中 分 类 错误 
样本 ， 对 错误 样本 进行 归 类 ， 针 对 错误 比例 较 大 ， 且 较 易 改进 的 错误 
类 别 收 集 更 多 数据 。 


假如 设计 猫 分 类 絮 ， 验 证 集 获得 了 90% 的 准确 率 ， 这 离 目 标 还 很 
远 。 初 略 分 析 验 证 集 分 类 错误 样本 ， 发 现 将 一 些 狗 错 分 为 猫 ， 这 些 狗 
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看 起 来 有 点 像 猫 ， 所 以 可 以 针对 狗 的 图 像 优 化 算法 ， 如 收集 更 多 的 狗 
图 像 ， 让 模型 不 再 将 狗 错 分 为 猫 。 问 题 在 于 这 样 做 值得 吗 ?最 后 可 能 
会 发 现 这 样 做 收益 很 少 。 错 误 分 析 可 以 快速 知道 这 个 方向 是 否 值 得 努 
力 。 


收集 比如 100 个 错误 分 类 的 验证 集 样本 ， 然 后 手动 检查 ， 一 次 只 
看 一 个 ， 看 看 验证 集 里 有 多 少 错误 标记 的 样本 是 狗 。 假 设 只 有 5 个 狗 
图 像 ， 这 意味 着 即使 完全 解决 了 狗 的 问题 ， 也 只 能 修正 这 100 个 错误 
中 的 5 个 。 换 名 话说 ,如 果 只 有 5% 的 错误 是 狗 图 像 , 那么 错误 率 最 多 
只 能 从 10% 下 降 到 9.5%。 这 称 之 为 性 能 上 限 ,也 就 是 最 好 能 好 到 哪里 ， 
据 此 来 决定 是 否 花 精 力 解 决 狗 问 题 。 


假设 男 一 种 情况 ,这 100 个 错误 标记 的 验证 集 样 本 有 50 张 图 都 是 
狗 ， 这 种 情况 下 ， 如 果 完 全 解决 了 狗 的 问题 ， 那 么 错误 率 就 从 10% 下 
降 到 5%， 效 果 很 好 。 


错误 分 析 时 可 以 并 行 评 佑 儿 个 想法 ， 比 如 改善 猫 检测 器 ,错误 样 
本 可 能 是 由 狗 或 者 猫 科 动物 如 狮子 、 对 和 猎豹 等 ， 或 者 图 像 模糊 引起 
的 。 分 别 统计 这 三 种 错误 的 比例 , 假设 最 后 结果 是 8% 是 狗 ，43% 属 于 
猫 科 动物 ，61% 属 于 模糊 。 注 意 一 个 错误 样本 可 能 有 两 种 错误 类 型 ， 
如 模糊 的 狮子 。 此 时 有 很 多 错误 来 自 模 糊 图 片 ， 也 有 很 多 错误 类 型 是 
猫 科 动 物 图 片 。 这 个 结果 表明 改进 模糊 图 像 和 猫 科 动物 的 潜力 最 大 ， 
知道 每 种 错误 类 型 性 能 提高 的 上 限 空间 有 和 多大。 具体 改 善 哪 类 错误 ， 
取决 于 有 多 少 改善 性 能 的 手段 和 投入 的 人 力 物 力 。 


总 之 , 通过 统计 错误 类 型 比例 ， 可 以 快速 发 现 哪 些 问题 需要 优先 
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解决 ， 或 者 给 出 构思 新 优化 方向 的 灵感 ， 这 个 分 析 过 程 需 要 经 常 做 。 


机 器 学 习 中 ， 很 鄙视 手工 操作 或 者 使 用 了 太 多 人 为 的 数值 。 但 如 
果 要 搭建 应 用 系统 ,这 个 简单 的 人 工 错误 分 析 步 又 可 以 节省 大 量 时 间 ，， 
迅速 决定 什么 是 最 重要 的 或 者 最 有 希望 的 方向 ， 这 是 一 个 必 不 可 少 的 
过 程 ， 强 烈 建 议 读者 经 常 进行 错误 分 析 。 


11.5 ”修正 错误 标签 


做 错误 分 析 时 ， 有 时 会 发 现 验证 集 里 有 些 样本 被 错误 标记 了 ， 是 
否 花 时 间 去 修正 这 些 错 误 标签 呢 ? 


深度 学 习 算 法 对 于 训练 集中 的 随机 标签 错误 相当 健壮 ， 只 要 错误 
样本 足够 随机 ， 数 据 集 足 够 大 ， 错 误 率 不 太 高 ， 模 型 没有 对 训练 集 过 
拟 合 ， 可 以 不 修正 这 些 错 误 标 签 。 因 为 同类 样本 一 般 都 是 聚合 在 一 起 
的 , 标签 错误 的 样本 可 以 看 作 其 中 的 孤岛 ,只 要 模型 没有 发 生 过 拟 合 ， 
分 类 边界 就 不 能 把 这 些 孤 岛 区 域 “ 圈 ”出 来 ,那么 这 些 孤 岛 对 分 类 边界 
基本 没有 影响 ， 不 会 影响 模型 性 能 。 但 如 果 发 生 了 过 拟 合 ， 分 类 边界 
把 这 些 孤岛 区 域 “ 圈 ” 出 来 ， 则 这 些 孤 岛 对 分 类 边界 影响 很 大 ， 模 型 性 
能 会 急剧 下 降 。 当 然 进行 修正 也 是 有 价值 的 。 


模型 对 系统 性 的 错误 却 很 敏感 ,假如 某 种 类 似 猫 的 狗 都 被 错误 标 
记 成 猫 ， 则 分 类 需 学 习 之 后 ， 会 把 这 种 狗 都 错 分 为 猫 。 因 为 这 些 错 误 
标签 的 样本 不 再 是 扳 岛 ， 而 是 大 陆 ， 会 影响 分 类 边界 。 
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对 于 验证 集 或 测试 集 上 标记 出 错 的 样本 ,采用 错误 分 析 方 法 ， 统 
计 标 签 错 误 所 占 的 百分比 ， 根 据 百分比 大 小 判断 是 否 修 正 。 如 果 标 签 
错误 ， 严 重 影响 了 对 算法 的 评估 ， 就 要 修正 错误 标签 ; 反之 ， 就 可 以 
不 修正 。 


假设 验证 集中 错误 标签 比例 为 1%。 验 证 集 有 10% 错 误 率 时 ， 此 
时 标签 错误 只 占 总 错误 的 10% (196 / 10% )， 只 是 一 小 部 分 ， 所 以 修 
正 错 误 标 签 也 许 不 是 当下 最 重要 的 任务 。 但 当 验 证 集 只 有 2% 错 误 率 
时 ， 此 时 占 到 总 错误 的 5096 (1% / 2% )， 这 时 修正 错误 标签 是 当下 最 
重要 的 任务 。 因 为 标签 错误 占 总 错误 的 比重 很 大 ， 错 误 标 签 对 算法 整 
体 评估 有 严重 的 影响 ,比如 两 个 模型 A 和 了 B 在 验证 集 上 错误 率 分 别 为 
2.1% 和 1.9%， 此 时 很 难 判断 哪个 模型 更 好 了 。 


如 果 打算 人 工 修正 验证 集 错 误 标签 ， 则 测试 集 上 错误 标签 也 必须 
修正 ， 以 确保 它们 来 自 相 同 分 布 。 


修正 算法 判断 错误 的 样本 标签 容易 ， 修 正 算法 判断 正确 的 样本 就 
很 困难 。 假 设 算法 的 准确 率 为 95% ， 检 查 算 法 判断 错误 的 5% 的 样本 
中 哪些 标签 错误 比较 容易 ， 但 要 检查 剩 下 的 95% 样 本 中 哪些 标签 错误 
比较 困难 ， 因 为 要 花 很 多 时 间 ， 所 以 通常 不 会 修正 算法 判断 正确 的 样 
本 。 


通常 也 不 会 修正 训练 集 的 错误 标签 ， 因 为 训练 集 太 大 了 ， 修 正 要 
花 太 多 的 时 间 ， 而 且 算法 对 随机 标签 错误 很 健壮 ， 修 复 意义 不 大 。 
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11.6 ”训练 集 和 验证 集 分 布 不 一 致 


深度 学 习 算 法 有 大 量 权重 ,会 过 早 地 对 小 数据 集 过 拟 合 ， 导 致 权 
重 未 充分 调整 ， 不 能 泛 化 到 验证 集 。 所 以 深度 学 习 算法 需要 大 数据 支 
撑 ， 训 练 集 越 大 算法 效果 越 好 。 但 有 时 针对 某 个 具体 任务 能 获得 的 样 
本 有 限 ， 网 页 上 却 有 海量 的 相似 样本 ,能 否 利用 这 些 海量 样本 来 提高 
系统 性 能 呢 ? 


假设 开发 一 个 手机 应 用 ,判断 用 户 手机 拍摄 的 照片 是 不 是 猫 。 有 
两 个 数据 来 源 ， 一 个 是 真正 关心 的 数据 分 布 ， 来 自用 户 手机 拍摄 的 照 
片 ， 当 用 户 数 不 多 时 ， 也 许 只 收集 到 1 万 张 照片 ， 而 这 些 照片 一 般 比 
较 业 余 ， 取 景 不 太 好 甚至 很 模糊 。 另 一 个 数据 来 源 是 用 怜 虫 程序 从 网 
页 下 载 海量 猫 图 ， 这 些 图 片 取景 专业 、 高 分 辩 率 、 拍 摄 专业 ， 假 设 下 
载 数量 超过 20 万 张 。 


如 果 只 使 用 用 户 手机 拍摄 的 1 万 张 照片 作为 训练 模型 ， 效 果 肯 定 
不 好 ,数据 太 少 了 。20 万 张 网 页 图 片 虽 不 完全 来 自用 户 图 片 分 布 , 但 
比较 接近 ， 对 系统 肯定 有 帮助 。 一 般 会 这 样 做 ， 训 练 集 包括 所 有 网 页 
图 片 和 部 分 用 户 图 片 ， 比 如 20 万 张 网 页 图 片 和 0.5 万 张 用 户 图 片 ; 验 
证 集 和 测试 集 只 有 用 户 图 片 ， 比 如 各 0.25 万 张 用 户 图 片 。 这 种 将 数据 
分 成 训练 集 、 验 证 集 和 测试 集 方法 的 好 处 是 ,模型 如 果 在 测试 集 达到 
好 效果 ， 则 系统 肯定 就 能 满足 用 户 需求 。 缺 点 在 于 ， 训 练 集 和 验证 集 
测试 集 分 布 不 一 致 ， 会 对 偏差 / 方差 分 析 带 来 困难 。 


继续 用 猫 分 类 融 为 例 ， 贝 叶 斯 最 小 错误 率 几 乎 是 0%， 假设 训练 
集 错误 率 是 1%， 验 证 集 错 误 率 是 10%。 如 果 验 证 集 和 训练 集 分 布 一 
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致 ， 则 存在 很 大 方差 ， 算 法 不 能 很 好 地 从 训练 集 泛 化 到 验证 集 。 但 如 
果 训练 和 验证 数据 来 自 不 同 分 布 ， 就 不 能 得 到 这 个 结论 。 可 能 是 因为 
训练 集 容易 识别 或 者 训练 集 都 是 高 分 辩 率 和 清晰 图 片 ， 而 验证 集 是 模 
糊 图 片 ， 难 以 识别 。 所 以 也 许 没有 方差 问题 ，9% 的 差别 主要 反映 了 验 
证 集 比 训练 集 更 难 识别 。 模 型 也 可 能 对 训练 集 过 拟 合 ， 对 与 训练 集 分 
布 一 致 但 未 见 过 的 数据 的 错误 率 可 能 是 5% ， 所 以 此 时 方差 可 能 只 有 
5%。 为 了 准确 评 佑 方差 ,首先 要 准确 评 佑 训练 集 错误 率 ， 可 以 从 训练 
集中 随机 抽取 部 分 数据 , 这 些 数 据 不 用 来 训练 网 络 , 只 用 来 评估 网 络 ， 
功能 类 似 验证 集 , 但 这 些 数 据 是 从 训练 集 抽取 的 , 称 之 为 训练 验证 集 ， 
其 分 布 和 训练 集 一 致 。 这 样 可 以 得 到 分 类 需 在 三 个 数据 集 的 错误 率 : 
训练 集 、 训 练 验证 集 和 验证 集 。 


假设 训练 集 错误 率 是 1% ,训练 验证 集 错 误 率 是 9% ， 验 证 集 错误 
率 是 10%。 这 样 就 能 得 到 结论 ， 模 型 从 训练 数据 变 到 训练 验证 集 数据 
时 ， 错 误 率 上 升 了 很 多 ， 算 法 存在 方差 问题 ， 因 为 训练 验证 集 和 训练 
集 来 自 同一 分 布 。 


假设 训练 错误 率 为 1%， 训 练 验证 错误 率 为 1.5% ， 验 证 集 错 误 率 
上 升 到 10%。 现 在 方差 就 很 小 了 ， 因 为 从 训练 数据 转 到 训练 验证 集 数 
据 ， 错 误 率 只 上 升 了 0.5%。 但 验证 集 错误 率 却 很 大 ， 所 以 存在 数据 不 
匹配 问题 。 因 为 学 习 算法 都 没有 直接 在 训练 验证 集 和 验证 集训 练 过 ， 
且 这 两 个 数据 集 来 自 不 同 的 分 布 ， 但 算法 在 训练 验证 集 上 做 得 很 好 ， 
而 验证 集 上 做 得 不 好 。 如 果 它 们 来 自 同一 分 布 ， 则 错误 率 应 该 相同 。 


再 假设 训练 错误 率 为 10%， 训练 验证 错误 率 为 11% ， 验 证 集 错误 
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率 为 12%。 由 于 贝 叶 斯 错误 率 大 概 是 0%， 此 时 存在 偏差 问题 。 但 基 
本 不 存在 数据 不 匹配 问题 ， 因 为 验证 集 错 误 率 只 比 训练 验证 集 错 误 率 


m 
高 一 点 


^o 


最 后 假设 训练 集 错 误 率 是 10% ,训练 验证 错误 率 是 11% ， 验 证 错 
误 率 是 20%， 那 么 存在 两 个 问题 : 偏差 相当 高 和 数据 不 匹配 问题 ， 但 
方差 很 小 。 


有 时 会 发 现 验证 集 错 误 率 比 训练 验证 集 低 ， 这 说 明 训练 数据 比 验 
证 集 难 识别 。 


总 结 下 ， 训 练 集 和 贝 叶 斯 最 小 错误 率 之 差 为 偏差 .训练 验 证 集 和 
训练 集 之 差 为 方差 ， 验 证 集 和 训练 验证 集 之 差 为 数据 不 匹配 程度 。 


如 果 数 据 不 匹配 是 模型 主要 问题 ， 怎 么 解决 呢 ? 很 不 幸 ， 没 有 特 
别 系统 的 方法 能 解决 数据 不 匹配 问题 。 由 于 可 能 存在 数据 不 匹配 问题 ， 
那 为 什么 还 要 使 用 与 验证 集 测 试 集 不 同 分 布 的 训练 数据 呢 ? 因为 这 可 
以 提供 更 多 训练 数据 ， 因 此 有 助 于 提高 学 习 算法 的 性 能 。 


通过 做 错误 分 析 尝 试 了 解 训练 集 和 验证 集 的 具体 差异 ,为 了 避免 
对 测试 集 过 拟 合 ， 只 能 对 验证 集 进 行 错误 分 析 。 找 到 差异 后 ， 对 训练 
集 数据 进行 改造 使 之 更 像 验 证 集 或 者 采用 人 工 数据 合成 技术 生成 训练 
集 。 使 用 这 些 技巧 一 定 要 谨慎 ,很 有 可 能 只 是 从 所 有 可 能 的 空间 中 选 
中 了 很 小 一 部 分 去 模拟 数据 。 


继续 用 猫 分 类 器 为 例 ， 假 设 发 现 模糊 是 主要 差异 ， 则 可 以 利用 图 
像 模糊 技术 使 训练 图 像 变 模 糊 ， 更 像 验 证 数据 。 模 糊 有 运动 模糊 、 离 
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焦 模 糊 等 ， 都 可 以 算法 实现 。 但 算法 肯定 不 能 完全 模拟 现实 所 有 的 模 
糊 情 况 ， 只 能 模拟 很 少 的 情况 。 


假设 研发 无 人 各 驶 汽车 ,利用 视觉 技术 检测 车 辆 ， 可 以 利用 计算 
机 合成 出 相当 逼真 的 车 辆 图 像 ， 利 用 这 些 合成 图 像 能 训练 出 一 个 相当 
不 错 的 系统 。 不 幸 的 是 ， 合 成 图 像 很 可 能 只 包含 车 图 像 的 很 小 子 集 ， 
学 习 算 法 会 对 这 一 小 子 集 过 拟 合 ， 导 臻 系统 对 实 折 图像 性 能 不 佳 。 


11.7 Xf 


除了 训练 集 和 验证 集 分 布 不 一 致 ， 还 有 一 种 情况 ， 就 是 能 获得 的 
样本 特别 少 ， 甚 至 网 络 上 都 没有 相似 样本 ， 比 如 开发 识别 珍稀 马 类 的 
应 用 ， 野 外 环境 下 能 获得 珍稀 马 类 的 图 片 很 少 ， 可 能 不 到 1 万 ; 医疗 
中 根据 彩超 判断 患者 是 否 患 有 某 种 罕见 疾病 ， 样 本 可 能 更 少 ， 可 能 不 
到 1 千 。 这 种 任务 ， 网 络 上 一 般 也 难以 找到 相似 样本 ， 此 时 如 果 直 接 
用 这 些 少量 样本 从 零 开 始 训 练 深度 网 络 ， 由 于 过 拟 合 问题 ， 效 果 会 很 


差 ， 怎么 办 ? 


迁移 学 习 可 以 解决 这 类 问题 , 迁移 学 习 是 指 , 任务 A 中 学 得 的 知 
识 可 以 用 到 任务 B 中 ， 从 而 降低 任务 B 的 学 习 难 度 。 迁移 学 习 对 于 人 
类 来 说 ， 就 是 举一反三 的 能 力 。 比 如 学 会 了 骑 自 行车 ， 那 么 学 骑 摩 托 
车 则 更 容易 ; 学 会 了 早 地 轮滑 , 则 学 溜冰 很 容易 。 这 些 任务 有 相似 性 ， 
知识 容易 迁移 ;如 果 任 务 之 间 不 具有 相似 性 ， 则 难以 迁移 ， 比 如 围棋 
知识 难以 迁移 到 骑 自 行车 。 如 果 任 务 之 间 相 似 程度 较 低 , 则 迁移 变 难 ， 
比如 围棋 知识 有 可 能 迁移 到 象棋 。 机 器 学 习 中 的 迁移 学 习 和 人 类 类 似 ， 
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区 


是 希望 机 品 有 举一反三 的 能 力 。 前 面 两 个 任务 ， 珍 稀 乌 类 识别 或 罕 
疾病 诊断 〈 称 为 任务 B )， 都 可 以 用 迁移 学 习 来 解决 ， 因 为 它们 本 质 


见 


H 


是 图 像 分 类 任务 ， 输 入 是 图 像 ， 输 出 是 类 别 。 所 以 可 以 采用 易 获 得 
的 海量 图 像 ， 训 练 深度 分 类 网 络 ( 称 为 任务 A )， 获 得 模型 A, 任务 A 
可 以 降低 任务 B 难度 。 任务 A 的 数据 可 以 从 零 创 建 ,更 常见 的 方法 是 
采用 公开 数据 集 , 模型 A 可 以 重新 设计 网 络 结构 , 然后 通过 训练 得 到 ， 
也 可 以 采用 著名 的 预 训 练 模型 。 图 像 领域 最 著名 的 公开 数据 集 就 是 
ImageNet (含有 1000 个 类 别 的 120 万 张 图 片 ), 采用 ImageNet 的 预 训 
练 模型 如 AlexNet，VGG ，GoogLeNet，ResNet 等 。 


以 预 训练 模型 VGG 为 例 说 明 迁 移 学 习 具 体操 作 。VGG 模型 是 多 
个 卷 积 层 和 池 化 层 交 替 ， 最 后 接 三 个 全 连接 层 ， 最 后 一 个 全 连接 层 答 
出 1000 个 类 别 的 分 值 ( 因为 ImageNet 有 1000 类 )。 假 设 任务 B 也 是 
分 类 ， 类 别 有 C 个 。 迁 移 学 习 时 ， 把 VGG 最 后 一 个 全 连接 层 换 成 输 
出 C 个 分 值 的 全 连接 层 ， 此 连接 层 的 权重 需要 重新 随机 初始 化 ， 然 后 
利用 任务 B 的 数据 对 这 些 随机 权重 进行 训练 ， 注 意 VGG 模型 的 其 他 
层 权 重 冻结 ， 训 练 时 保持 不 变 。 由 于 此 时 需要 训练 的 参数 很 少 ( 只 有 
最 后 一 个 全 连接 层 的 权重 )， 所 以 即使 任务 B 的 数据 很 少 ， 也 不 容易 
造成 过 拟 合 ， 能 获得 好 性 能 。 这 种 迁移 学 习 实质 就 是 把 VGG 模型 作 
为 特征 提取 器 ， 利 用 任务 B 的 数据 训练 一 个 线性 分 类 器 。 因 为 图 像 进 
入 VGG 模型 后 直到 最 后 一 个 全 连接 层 ， 变 为 一 个 4096 维 的 向 量 ， 所 
以 VGG 模型 可 以 看 作 把 图 像 变 为 4096 维 向 量 的 特征 提取 器 。 利 用 这 
些 特 征 ， 对 最 后 输出 C 个 分 值 的 全 连接 层 进 行 训 练 ， 就 是 一 个 线性 分 
类 器 。 从 这 个 角度 看 ， 深 度 学 习 前 特征 都 是 人 为 设计 ， 如 SIFT 特征 ， 
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与 任务 BER, 效果 不 好 。 迁 移 学 习 特 征 不 是 人 为 设计 的 ， 而 是 由 任 
务 A 决定 的 , 与 任务 相关 ， 所 以 效果 会 更 好 。 特 别 地 ,如果 任务 A 和 
B 相似 ,效果 会 更 好 。 比 如 ， 珍 稀 鸟 类 识别 的 图 像 是 普通 的 彩色 图 像 
和 ImageNet 图 像 一 样 ， 而 罕见 疾病 诊断 的 图 像 是 彩超 与 ImageNet 
像 不 一 样 ， 所 以 珍稀 马 类 识别 与 ImageNet 分 类 任务 更 相似 。 


两 个 任务 相似 ， 不 仅 要 输入 数据 相似 ， 比 如 都 是 图 像 或 语音 ， 还 
要 输出 相似 ， 比 如 都 是 分 类 。 有 时 输入 相似 ， 输 出 不 同 ， 也 可 以 进行 
迁移 学 习 ， 最 著名 的 例子 就 是 物体 检测 。 物 体检 测 输 入 是 图 像 ， 输 出 
是 物体 类 别 和 位 置 ， 而 图 像 分 类 只 需 输 出 类 别 。 图 像 分 类 得 到 的 模型 
广泛 应 用 在 物体 检测 中 , 物体 检测 算法 如 Faster R-CNN 就 利用 了 图 像 
分 类 得 到 的 预 训练 模型 如 ResNet。 


根据 任务 B 数据 多 少 和 与 任务 A 的 相似 程度 , 可 以 把 迁移 学 习 简 
单 分 为 四 类 。 


当 任务 B 与 任务 A 相似 , 任务 B 数据 很 少时 ,如 上 所 述 ， 只 从 零 
开始 训练 VGG 模型 的 最 后 一 个 全 连接 层 ， 其 他 层 冻 结 。 当 任务 B 数 
据 较 多 时 ， 不 仅 可 以 从 零 开始 训练 VGG 模型 的 最 后 一 个 全 连接 层 ， 
而 且 可 以 对 VGG 模型 后 面 更 多 层 〈 甚 至 全 部 ) 进行 微调 ， 即 这 些 层 
权重 不 需 重新 随机 初始 化 ， 而 是 保持 原来 数值 不 变 ， 然 后 利用 梯度 下 
降 法 对 这 些 权 重 进行 微调 。 注 意 此 时 学 习 率 必须 低 ， 以 避免 对 原始 权 
重 造成 太 快 或 太 大 的 改变 ， 经 验 法 则 是 取 训 练 该 模型 时 学 习 率 的 0.1 


EA 
Ho 


当 任务 B 与 任务 A 不 相似 , 任务 B 数据 很 少时 , 此 时 很 难 取得 好 
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效果 , 可 以 尝试 从 VGG 模型 靠 前 的 层 开 始 训练 线性 分 类 器 。 当 任务 B 
数据 较 多 时 ， 需 对 VGG 模型 大 部 分 层 ( 甚至 全 部 ) 进行 微调 。 当 然 
如 果 数 据 足 够 多 ， 也 可 以 从 新 开始 训练 一 个 模型 。 


迁移 学 习 的 理论 基础 是 什么 , 为 什么 任务 A 有 助 于 任务 B 呢 ? 以 
深度 学 习 中 图 像 分 类 为 例 ， 卷 积 网 络 通 过 多 个 卷 积 层 ， 逐 渐 把 原始 的 
像素 特征 变换 为 边缘 、 色 块 等 初级 特征 , 然后 变换 成 中 级 特征 如 眼睛 、 
嘴巴 ， 最 后 是 高 级 特征 如 脸 ， 是 分 层 学 习 。 网 络 学 到 的 初级 特征 很 通 
用 ,能 用 于 各 种 图 像 任务 中 ， 高 级 特征 跟 任务 密切 相关 ， 通 用 性 差 。 
比如 ImageNet 中 包含 大 量 的 狗 种 类 , 所 以 高 级 特征 中 很 多 属性 可 能 
于 区 分 不 同 的 狗 品种 。 由 于 初级 特征 通用 性 好 ， 所 以 任务 A 学 到 初级 
特征 能 用 于 任务 B， 具 有 迁移 性 。 如 果 任务 很 相似 ， 高 级 特征 也 能 互 
相 迁 移 ; 不 相似 时 ， 高 级 特征 难以 迁移 。 深 度 学 习 中 分 层 学 习 ， 初 级 
特征 的 通用 性 是 迁移 学 习 的 基本 理论 。 


迁移 学 习 在 实践 中 大 量 使 用 ， 很 多 任务 中 训练 数据 很 少 ， 所 以 可 
以 找 一 个 数据 很 多 的 相似 任务 来 预先 学 习 ， 并 将 知识 迁移 到 这 个 新 任 
务 上 。 


迁移 学 习 也 大 量 用 在 模拟 中 ， 对 很 多 依靠 硬件 交互 的 机 器 学 习 应 
用 而 言 , 在 物理 世界 中 收集 数据 、 训 练 模型 ,要么 昂贵 ,要么 耗 时 间 ， 
要 么 危险 ， 所 以 最 好 能 以 其 他 方式 来 收集 数据 ， 计 算 机 模拟 是 首选 工 
有 具 ， 从 虚拟 世界 中 学 习 并 将 学 到 的 知识 迁移 到 物理 世界 。 比 如 无 人 轰 
驶 ， 真 实 道路 下 进行 无 人 驾驶 训练 ， 太 危险 也 十 分 耗 时 ，OpenAI 的 
Universe 平台 用 视频 游戏 ( 如 飞车 游戏 ) 来 训练 无 人 驾驶 汽车 。 又 比 
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如 训练 机 器 臂 抓 了 物体， 在 物理 机 器 人 上 训练 模型 非常 缓慢 和 昂贵 ， 
但 计算 机 模拟 训练 则 快速 又 廉价 。 


11.8 多 任务 学 习 


迁移 学 习 是 任务 B 向 任务 A 学习, 不 存在 反 向 学 习 , BITES A 向 
任务 B 学 习 。 多 任务 学 习 是 双向 学 习 , 任务 A 和 任务 B 互相 学 习 , 其 
至 数 个 任务 之 间 互 相 学 习 。 给 定 多 个 学 习 任务 ， 其 中 所 有 或 一 部 分 任 
务 是 相关 的 但 并 不 完全 一 样 ， 多 任务 学 习 的 目标 是 通过 使 用 这 多 个 任 
务 中 包含 的 知识 来 帮助 提升 各 个 任务 的 性 能 。 迁 移 学 习 时 , 任务 A 拥 
有 海量 数据 ,任务 B 数据 很 少 ， 只 能 先 训练 任务 A 得 到 模型 A,， 训练 
任务 B 时， 只 是 对 模型 A 进行 微调 。 多 任务 学 习 时 ， 所 有 的 任务 同时 
训练 ， 没 有 先后 之 分 。 多 任务 学 习 的 理论 基础 和 迁移 学 习 一 致 ， 任 务 
获得 的 知识 有 助 于 其 他 相似 任务 学 习 。 多 任务 训练 时 ， 各 个 任务 同步 
学 习 ， 各 自学 习 任务 相关 知识 ， 同 时 所 有 任务 共享 这 些 知识 ， 降 低 了 
学 习 难 度 ， 提 高 了 泛 化 能 力 。 多 任务 学 习 广 泛 存在 人 类 社会 ， 学 生 在 
学 校 学 习 多 门 课程 和 交叉 科学 研究 都 是 多 任务 学 习 ,，“ 他 山 之 石 , 可 以 
攻 玉 ”说 的 也 是 多 任务 学 习 。 


e 


深度 学 习 时 代 ， 多 任务 学 习 理 论 基础 和 迁移 学 习 一 致 ， 即 次 度 学 
习 中 分 层 学 习 理论 ， 网 络 底层 学 到 的 特征 通用 性 好 ， 能 用 于 不 同 任务 
中 。 多 标签 学 习 是 一 种 典型 的 多 任务 学 习 ， 以 多 标签 学 习 来 具体 说 明 
多 任务 学 习 过 程 。 ImageNet 是 单 标签 学 习 , 即 一 张 图 片 只 有 一 个 标签 ， 
是 一 种 单 任务 学 习 。 多 标签 学 习 是 指 一 张 图 片 同时 有 多 个 标签 ， 模 型 
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需要 同时 输出 这 些 标签 ， 每 个 标签 对 应 一 个 任务 。 比 如 研发 无 人 驾驶 
车 辆 ， 需 要 对 拍摄 的 道路 图 像 判 断 是 否 有 行人 、 和 车 辆 、 交 通 标志 还 有 
交通 灯 等 。 单 标签 学 习 时 ， 模 型 是 多 个 隐 含 层 后 接 一 个 输出 层 ， 然 后 
计算 softmax 损失 ， 进 行 误差 反 向 传播 更 新 权重 。 多 标签 学 习 时 ， 模 
型 是 多 个 隐 含 层 后 接 多 个 输出 层 ( 每 个 输出 层 对 应 一 个 标签 ), 然后 分 
别 计算 每 个 输出 层 〈 标 签 ) 的 softmax 损失 ， 每 个 损失 都 进行 误差 反 
向 传播 更 新 权重 ， 可 见 多 个 隐 含 层 的 权重 被 每 个 标签 损失 更 新 。 多 标 
签 学 习 时 ,多 个 输出 层 共享 多 个 隐 含 层 ( 共享 网 络 ) 每 个 损失 都 对 共 
享 网 络 同时 进行 训练 。 每 个 标签 任务 不 同 之 处 在 于 都 有 独立 的 一 个 输 
出 层 ， 其 权重 由 各 自 损失 进行 独立 更 新 ， 以 适应 不 同 标签 任务 。 换 个 
角度 看 ， 共 享 网 络 可 以 看 作 是 多 标签 学 习 的 特征 提取 融 ， 每 个 标签 任 
务 都 共享 该 特征 提取 絮 ， 具 有 同样 的 特征 表示 ， 并 独自 训练 一 个 线性 
分 类 器 ， 共 享 网 络 是 所 有 任务 共同 训练 出 来 的 。 


当然 ， 也 可 以 训练 多 个 网 络 ， 每 个 网 络 只 解决 一 个 标签 任务 ， 训 
练 一 个 共享 网 络 完成 多 个 任务 会 比 训练 多 个 完全 独立 的 网 络 分 别 完成 
一 个 任务 ， 性 能 要 更 好 ， 这 就 是 多 任务 学 习 的 力量 。 多 任务 学 习 可 以 
提高 网 络 的 泛 化 性 能 、 加 快 学 习 速 度 和 减少 达到 单 任务 同等 性 能 水 平 
所 需要 的 训练 样本 数量 。 


为 什么 多 任务 学 习性 能 比 多 个 独立 任务 要 好 ， 有 多 种 可 能 的 原 
因 。 多 任务 学 习 人 允许 共享 网 络 中 专用 于 茶 个 任务 的 特征 被 其 他 任务 使 
用 ; 共享 网 络 可 以 学 习 到 可 适用 于 不 同 任务 的 特征 ， 这 样 的 特征 在 单 
任务 学 习 网 络 中 往往 不 容易 学 到 ; 对 于 某 个 任务 ， 误 差 反 向 传播 时 其 
他 任务 产生 的 梯度 可 以 视 为 噪声 ， 这 些 噪声 可 以 提高 该 任务 的 证 化 能 
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力 。 


多 标签 学 习 标记 样本 时 ， 感觉 每 个 样本 要 标记 所 有 标签 ， 事实 证 
明 ， 多 标签 学 习 也 可 以 处 理 样 本 部 分 标记 的 情况 。 比 如 有 的 样本 标记 
了 有 车 ,但 忘 了 标记 是 否 有 行人 ; 或 者 有 的 样本 标记 了 没有 行人 ， 没 
有 标记 是 否 有 交通 灯 等 等 。 即 使 是 这 样 的 数据 集 ， 也 可 以 进行 多 标签 
学 习 ， 训 练 网 络 时 ， 不 是 每 个 标签 都 进行 反 向 传播 更 新 权重 ， 只 对 有 
标记 的 标签 进行 权重 更 新 ， 忽 略 没 有 标记 的 标签 。 


多 标签 学 习 时 , 任务 很 相似 , 只 有 输出 层 不 共享 , 其 他 层 都 共享 。 
如 果 每 个 任务 不 太 相 同 ， 则 可 以 增加 不 共享 的 隐 含 层 数 ， 每 个 任务 学 
习 到 更 多 特有 的 特征 ， 来 提高 学 习 效 果 。 物 体检 测 是 任务 不 相似 的 多 
任务 学 习 实例 ， 物 体检 测 输入 图 像 ， 输 出 多 个 物体 的 类 别 和 位 置 ， 检 
测 每 个 物体 就 是 一 个 任务 ,判断 物体 的 类 别 和 位 置 是 两 个 子 任务 ， 性 
能 完全 不 同 ， 所 以 物体 检测 网 络 中 判断 类 别 和 位 置 的 子 网 络 采用 了 不 
同 的 网 络 结构 ， 同 时 损失 函数 也 不 同 ， 类 别 采用 softmax 损失 ， 位 置 
采用 12 范 数 损失 ( 均 方 损失 ), 详细 内 容 可 参考 Faster R-CNN 等 网 络 。 


Id 


有 时 ， 单 任务 学 习 可 以 通过 增加 一 些 辅助 任务 来 提高 主任 务 的 学 
习 效 果 ， 进 行 多 任务 学 习 。 以 人 脸 关 键 点 定位 为 例 ， 它 需要 精确 定位 
眼睛 、 曙 子 和 嘴角 位 置 ， 很 容易 受 遮 挡 和 脸 部 姿势 的 影响 ， 如 正 脸 和 
侧 脸 差别 极 大 。 通 过 设计 一 些 辅助 任务 来 提高 主任 务 效果 ， 这 些 辅助 
任务 与 主任 务 密切 相关 ， 比 如 一 个 正在 笑 的 孩子 会 张 开 嘴 ， 有 效 地 发 
现 和 利用 这 个 相关 的 脸 部 属性 将 帮助 更 准确 地 检测 嘴角 。 通 过 设计 是 
否 带 眼镜 、 笑 脸 、 性 别 和 脸 部 姿态 这 4 个 辅助 任务 ， 显 著 提 高 了 人 脸 
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关键 点 定位 精度 。 


多 任务 学 习 中 每 个 任务 都 对 共享 网 络 权 重 进行 更 新 ， 更 新 比例 由 
任务 重要 性 决定 ， 任 务 越 重 要 ， 比 例 越 大 ; 任务 相似 ， 则 比例 相近 。 
比如 多 标签 学 习 中 每 个 标签 的 比例 可 以 取 相同 ， 辅 助 任务 学 习 时 ， 主 
任务 比例 更 大 。 当 任务 采用 不 同 的 损失 函数 时 , 则 还 需 对 损失 归 一 化 。 


最 后 强调 一 点 ， 多 任务 学 习 时 ， 如 果 各 个 任务 很 相似 ， 则 多 任务 
学 习 优 势 很 大 ; 如 果 任 务 不 相似 ， 则 效果 会 变 差 ， 特 别 的 ， 离 群 任务 
会 显著 降低 系统 性 能 。 如 果 任 务 相似 ， 多 任务 学 习 会 降低 性 能 的 唯一 
情况 ， 和 训练 多 个 单 任务 相 比 ， 就 是 神经 网 络 容量 不 够 大 。 


11.9” 端 到 端 学 习 


深度 网 络 强大 的 拟 合 能 力 和 大 数据 支撑 ， 兴 起 了 端 到 端 学 习 ， 端 
到 庙 学 习 是 采用 海量 训练 数据 用 巨大 网 络 直接 学 习 从 输入 到 答 出 的 复 
杂 映 射 关系 。 传 统 学 习 方 法 ， 中 间 会 有 多 个 人 工 处 理 阶段 ， 端 到 端 学 
习 不 需要 进行 这 些 处 理 。 


深度 学 习 的 图 像 分 类 可 以 看 作 一 种 端 到 端 学 习 ， 从 图 像 直 接 输 出 
类 别 ， 中 间 没有 任何 人 工 处 理 ;传统 方法 需要 先 提 取 人 工 设计 的 特征 
(如 SIFT 特征 )， 然 后 输入 到 分 类 器 ( 如 SVM 分 类 器 )， 中 间 有 人 工 
特征 阶段 。 


深度 学 习 的 语音 识别 也 是 端 到 端 学 习 ， 训 练 一 个 巨大 的 神经 网 
络 ， 输 入 是 一 段 音频 ， 输 出 是 对 应 的 听写 文本 ， 中 间 不 需要 任何 人 为 
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设计 的 特征 。 传 统 上 语音 识别 是 多 阶段 的 方法 ， 首 先 提取 一 些 手 工 设 
计 的 音频 特征 , 比如 著名 的 MECC 特征 。 提取 出 这 些 低 层次 特征 之 后 ， 
应 用 机 带 学 习 算 法 在 音频 片段 中 定位 音 位 ， 音 位 是 声音 的 基本 单位 ， 
比如 说 “Cat "这 个 词 是 三 个 音 位 构成 的 : Cu, Ah 和 Tu, 算法 把 这 三 个 
音 位 提取 出 来 ， 然 后 将 音 位 串 在 一 起 构成 独立 的 词 ， 然 后 将 词 串 起 来 
构成 音频 片段 的 听写 文本 。 


再 比如 机 器 翻译 ,传统 上 机 融 翻 译 系统 也 是 一 个 很 复杂 的 流水 
线 ， 比 如 英语 翻译 到 法 文 ， 先 做 文本 分 析 ， 从 文本 中 提取 一 些 特征 ， 
然后 经 过 很 多 步 又， 最 后 翻译 成 法 文 。 现 在 广泛 采用 端 到 端 学 习 的 机 
嚣 翻译， 输入 英文 ， 网 络 直接 输出 法 文 。 


为 什么 现在 大 量 采用 端 到 端 学 习 ， 放 弃 手 工 设计 特征 呢 ? 因为 有 
了 海量 数据 ， 加 上 深度 网 络 强大 的 拟 合 能 力 ， 端 到 端 学 习 效 果 高 于 手 
工 方法 。 但 是 必须 指出 ， 当 数据 集 较 小 的 时 候 , 传统 方法 效果 也 不 错 ， 
通常 做 得 更 好 。 


端 到 端 学 习 的 最 大 优点 是 只 让 数据 说 话 。 如 果 有 足够 多 的 训练 数 
据 ， 直 接 训练 一 个 足够 大 的 神经 网 络 ， 纯 粹 使 用 机 器 学 习 方 法 ， 捕 获 
数据 中 的 统计 信息 ， 而 不 是 被 迫 引入 人 类 的 成 见 ( 有 时 有 帮助 ， 有 时 
没有 帮助 )。 第 二 个 好 处 就 是 手工 设计 组 件 更 少 , 所 以 也 许 能 够 简化 设 
计 工 作 流程 ， 节 省 时 间 。 第 三 个 好 处 是 能 减 小 样本 标记 工作 量 ， 端 到 
端 学 习 只 需 标 记 最 后 输出 标签 ， 通 常 是 比较 简单 的 。 传 统 方法 需要 标 
记 很 多 中 间 过 程 而 且 标 签 很 复杂 。 


端 到 端 学 习 的 缺点 也 是 明显 的 ， 首 先 可 能 需要 大 量 的 数据 。 如 果 
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没有 大 量 数据 ， 性 能 可 能 没有 传统 方法 好 。 男 一 个 缺点 是 ， 排 除了 可 
能 有 用 的 手工 设计 组 件 。 手 工 设计 组 件 可 以 把 人 类 知识 直接 注入 到 算 
法 ， 引 入 先 验 知识 ， 有 时 会 提高 系统 性 能 。 学 习 算法 有 两 个 主要 的 知 
识 来 源 ， 一 个 是 数据 ， 另 一 个 是 先 验 知 识 ， 所 以 当 有 大 量 数据 时 ， 先 
验 知识 不 太 重 要 , 但 是 当 没 有 太 多 数据 时 , 先 验 知识 对 系统 很 有 帮助 。 


由 于 端 到 端 学 习 上 述 的 优 缺 点 ， 对 于 一 个 实际 问题 ， 需 要 对 问题 
进行 拆 分 ， 把 一 个 复杂 问题 拆 分 成 一 系列 比较 简单 的 问题 ， 对 每 个 简 
单 问题 再 通过 端 到 端 学 习 解 决 ， 尽 量 少 的 引入 手工 设计 组 件 ， 复 杂 问 
题 的 拆 分 是 一 门 艺术 。 通 常 来 说 , 在 识别 、 检 测 和 分 割 等 基础 任务 上 ， 
端 到 端 学 习 可 以 获得 更 好 的 效果 。 


比如 无 人 驾驶 , 车 辆 安装 有 各 种 传 感 吾 ,， WRR, EREA 
激光 雷达 等 ， 这 些 传感器 采集 到 的 时 序数 据 是 和 输入， 输出 是 刹车 、 油 
门 和 方向 盘 的 操作 序列 。 如 果 直 接 用 巨大 的 网 络 拟 合 这 些 输入 输出 ， 


就 是 端 到 端 学 习 。 


目前 端 到 端 学 习 可 能 不 适合 开发 实用 无 人 千 驶 系统 ， 不 如 拆 分 为 
感知 、 地 图 、 决 策 三 个 部 分 。 其 原因 如 下 : 第 一 ， 不 聪明 。 在 做 驾驶 
决策 时 , 只 关心 高 精 地 图 环境 、 本 车 当前 位 置 和 周围 物体 的 相对 位 置 ， 
并 不 关心 物体 的 颜色 ， 如 车 的 颜色 或 者 路 边 树 叶 是 绿 的 还 是 黄 的 。 端 
到 端 学 习 没有 这 些 先 验 知识 ， 所 以 需要 大 量 元 余数 据 和 计算 。 对 于 拆 
分 方案 , 分别 独 立 学 习 再 融合 ， 每 个 部 分 可 以 采用 端 到 端 学 习 ， 可 以 
大 大 降低 需要 的 数据 和 计算 。 第 二 ， 不 灵活 。 如 果 传 感 器 位 置 、 性 能 
变化 或 者 增加 其 他 感知 设备 ， 就 可 能 需要 重新 收集 数据 学 习 或 进行 高 
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精度 的 传 感 澡 校正 。 如 果 换 辆 车 ， 执 行 机 构 变 化 ， 也 需要 重新 收集 数 
据 学 习 。 拆 分 方案 可 以 大 大 提高 灵活 性 。 第 三 ， 难 理解 。 无 人 笃 驶 是 
一 个 系统 工程 ， 遇 到 问题 时 ， 需 深入 系统 诊断 出 问题 模块 ， 有 和 针对 性 
的 改进 ， 是 解决 问题 的 行 之 有 效 的 手段 。 但 是 对 于 整体 端 到 端 学 习 ， 
一 旦 出 现 问 题 ,， 因为 无 法 “对 症 下 药 ”, 解决 问题 的 难度 会 增 大 , 需要 
投入 更 多 的 资源 和 时 间 。 拆 分 方案 十 分 容易 理解 ， 排 查 问题 很 容易 。 
第 四 ， 多 解 性 。 面 对 相同 的 道路 环境 ， 每 个 驾驶 员 的 操作 是 不 同 的 ， 
所 以 端 到 端 学 习 时 同一 个 输入 会 对 应 多 个 输出 ， 造 成 拟 合 困难 。 拆 分 
方案 中 的 决策 部 分 可 以 很 好 的 处 理 这 个 多 解 问题 。 


但 是 ， 并 不 能 因此 完全 否定 端 到 端 学 习 ， 这 只 是 端 到 端 学 习 运 用 
到 无 人 癌 驶 领域 目前 所 存在 的 问题 ， 或 许 在 将 来 可 以 得 到 解决 。 但 是 
目前 ， 对 于 能 收集 到 的 数据 、 能 够 用 神经 网 络 学 习 的 数据 类 型 以 及 让 
练 神 经 网 络 的 方法 ， 端 到 端 学 习 实 际 上 不 是 最 有 布 望 的 方法 。 


现在 高 铁 进 站 曾 机 ， 采 用 人 脸 票 证 合 一 自助 进 站 ， 快 捷 方 便 。 旅 
客站 在 闹 机 前 ， 身 份 证 放 在 阅 机 上 ， 如 果 相 机 识别 出 的 旅客 身份 和 机 
嚣 读 取 身 份 证 的 信息 一 致 ， 则 旅客 可 以 通过 曾 机 。 如 何 设计 身份 识别 
系统 呢 ? 如 果 采 用 端 到 端 学 习 ， 则 系统 直接 学 习 图 像 到 人 物 身 份 的 函 
数 映射 ， 事 实证 明 目 前 这 不 是 最 好 的 方法 。 相 反 ， 迄 今 为 止 最 好 的 方 
法 似乎 也 是 拆 分 方法 : 先 检测 后 识别 。 首 先 ， 运 行人 脸 检测 算法 定位 
人 脸 ， 然 后 缩放 人 脸 图 像 并 裁剪 图 像 使 人 脸 居 中 ， 再 用 神经 网 络 识别 
身份 。 训 练 识别 网 络 的 方式 是 输入 两 张 图 片 〈 一 张 是 身份 证 照片 ， 一 
张 是 裁剪 后 的 人 脸 ) 判断 是 否 是 同一 个 人 。 如 果 身 份 信息 不 一 致 , 则 
会 进一步 与 公安 系统 所 有 在 逃犯 进行 一 一 比 对 ,也 是 输入 两 张 图 片 ( 一 
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张 是 在 逃犯 照片 , 一 张 是 裁剪 后 的 人 脸 ) 如 果 判 断 为 同一 人 , 则 系统 
报警 。 为 什么 两 步 法 更 好 呢 ? 有 两 个 原因 。 一 是 这 两 个 子 任务 比较 简 
单 ， 二 是 两 个 子 任务 的 训练 数据 都 很 多 ， 两 个 任务 都 可 以 用 端 到 端 学 
习 。 相 比 之 下 ， 如 果 想 一 步 到 位 ， 从 拍摄 照片 到 身份 证 号 码 ， 这 样 的 
数据 对 就 少 得 多 。 注 意 这 种 拆 分 不 需 先 验 知识 。 


再 如 ， 利 用 摄像 头 进行 驾驶 员 疲 劳 检 测 ， 输 入 是 驾驶 员 照 片 ， 输 
出 是 否 疲劳 。 如 果 采 用 端 到 端 学 习 ， 则 很 难 采 集 到 大 量 疲劳 照片 。 采 
用 拆 分 方法 更 简单 一 一 先进 行人 脸 关键 点 定位 再 判断 是 否 疲劳 。 人 脸 
关键 点 定位 有 大 量 数据 且 解 决 得 很 好 ， 人 脸 关 键 点 定位 定位 出 眼睛 ， 
巴 等 ， 再 根据 人 疲劳 时 眼睛 和 嘴巴 状态 等 先 验 知识 ， 如 疲劳 时 会 频 
繁 肥 眼 ， 嘴 巴 打 哈欠 等 ， 进 行 疲劳 判断 。 具 体 的 ， 输 入 是 眼睛 图 像 ， 
输出 是 分 类 C 闭 眼 还 是 睁 眼 ), 然后 依据 疲劳 理论 , 根据 闭 眼 睁 眼 时 序 
结构 来 判断 是 否 疲劳 。 注 意 这 种 拆 分 利用 了 先 验 知识 。 


3 


实际 中 是 否 采 用 端 到 端 学 习 ， 关 键 问题 是 判断 是 否 有 足够 的 数据 
学 到 输入 到 输出 的 复杂 映射 。 如 果 有 足够 数据 , 可 以 尝试 端 到 端 学 习 ; 
如 果 不 多 , 可 以 尝试 拆 分 为 几 个 子 问题 , 每 个 子 问题 采用 端 到 端 学 习 ， 
同时 尽 可 能 少 使 用 先 验 知识 ， 如 有 必要 ， 最 好 使 用 简单 明了 的 先 验 知 
识 ; 如 果 数 据 很 少 ， 还 是 采用 传统 方法 。 


11.10 修改 评估 指标 或 者 验证 集 测 试 集 


评估 指标 是 用 来 评估 模型 优 劣 的 ,假设 评估 指标 采用 分 类 准确 率 ， 
现在 有 两 个 模型 AGB, 在 测试 集 上 错误 率 分 别 是 3% 和 5%， 可见 模 
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型 A 性 能 更 好 。 但 模型 实际 部 署 后 ,用 户 发 现 模型 B 更 好 ， 而 不 是 模 


一 种 可 能 原因 是 ,模型 A 把 一 些 重要 的 样本 判断 错误 ， 而 模型 B 
没有 ， 对 用 户 来 说 ， 这 些 重要 样本 不 能 判断 错误 ， 所 以 用 户 更 喜欢 模 
型 B。 这 时 原来 的 评 佑 指标 已 经 无 法 正确 评 佑 算法 的 优 劣 ， 需 要 定义 
一 个 新 的 评估 指标 。 新 指标 要 突出 重要 样本 ， 一 种 可 能 方式 就 是 11.1 
节 中 定义 的 加 权 错 误 率 。 新 评 佑 指标 的 意义 在 于 准确 指出 两 个 模型 哪 
一 个 更 适合 应 用 。 


还 有 一 种 原因 是 ， 测 试 集 和 用 户 使 用 模型 时 的 数据 分 布 不 一 致 ， 
比如 测试 集 都 是 高 质量 图 像 ， 而 用 户 图 像 比较 模糊 ， 巧 合 模型 B 在 模 
糊 图 像 性 能 更 好 。 此 时 就 需要 修改 验证 集 测试 集 ， 使 之 与 用 户 数据 分 
布 更 一 致 ， 更 能 反映 实际 需要 处 理 的 数据 。 


好 的 评估 指标 和 测试 集 可 以 更 快 做 出 决策 , 判断 模型 A 还 是 模型 
B 更 优 ， 加 速 模 型 迭代 速度 。 即 使 无 法 定义 出 一 个 完美 的 评估 指标 和 
测试 集 ， 先 快速 设立 出 来 ， 然 后 使 用 它们 来 驱动 模型 迭代 。 如 果 在 这 
之 后 ， 发 现 有 更 好 的 想法 ， 可 以 立即 修改 ， 最 好 不 要 在 没有 评估 指标 
和 测试 集 时 耽搁 太 久 ， 因 为 可 能 会 减 慢 模 型 迭代 速度 。 


11.11 如何 设计 训练 集 、 验 证 集 和 测试 集 


如 前 所 述 ,希望 这 三 个 数据 集 来 自 同一 分 布 ， 所 以 建议 把 所 有 数 
据 随机 洗 牌 ， 然 后 按 一 定 比例 分 割 为 三 个 数据 集 ， 验 证 集 测试 集 必须 
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和 系统 部 署 后 用 户 的 数据 分 布 一 致 。 


深度 学 习 时 代 前 ， 有 一 条 经 验 法 则 把 全 部 数据 用 70/30 比例 分 成 
训练 集 和 测试 集 ， 或 者 如 果 必 须 设 立 训 练 集 、 验 证 集 和 测试 集 ， 则 按 
60/20/20 比例 划分 。 这 样 划 分 是 相当 合理 的 ， 因 为 数据 集 都 比较 小 。 


但 在 现代 机 器 学 习 中 , 数据 集 变 得 很 大 , 比如 说 有 1 百 万 个 样本 ， 
这 样 划分 可 能 更 合理 ，98% 作 为 训练 集 ，1% 验 证 集 ，1% 测 试 集 。 因 为 
如 果 有 1 百 万 个 样本 , 那么 1% 就 是 1 万 个 样本 , 这 对 于 验证 集 和 测试 
集 来 说 可 能 已 经 够 了 。 因 为 验证 集 是 用 来 分 辨 不 同 模型 的 好 坏 ， 只 要 
验证 集 足 够 大 ， 能 够 准确 区 分 模型 好 坏 就 可 。 测 试 集 的 目的 是 完成 系 
统 开发 之 后 ， 测 试 集 可 以 评 佑 投产 系统 的 性 能 ， 只 要 测试 集 足够 大 ， 
能 够 以 高 置信 度 评估 系统 整体 性 能 就 可 。 这 样 就 留 有 更 多 的 样本 用 来 
训练 模型 ， 满 足 深 度 学 习 算 法 对 数据 的 大 胃口 。 


传统 机 融 学 习 一 般 用 交叉 验证 法 对 模型 进行 评估 ， 即 所 有 数据 只 
划分 为 训练 集 和 测试 集 ， 然 后 把 训练 集 随机 划分 为 相等 的 大 个 子 集 。 
每 次 取 k-1 个 子 集 进行 训练 ， 剩 下 的 那个 子 集 作为 验证 集 ; 这 样 就 可 
获得 上 组 训练 集 / 验证 集 ， 进 行 大 次 训练 和 验证 ， 最 终 取 丰 次 验证 结 
果 的 平均 值 。 因 为 传统 时 代 ， 数 据 集 很 小 ， 验 证 集 也 很 小 ， 只 进行 一 
次 验证 会 导致 很 大 方差 ， 结 果 十 分 不 准确 ， 采 用 交叉 验证 法 能 比较 可 
靠 地 评估 模型 。 深 度 学 习 一 般 不 需 采 用 交叉 验证 法 ， 因 为 验证 集 足够 
大 ， 不 会 产生 大 方差 ,评估 模型 很 稳定 。 
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11.12 “类别 不 平衡 


一 般 数 据 集中 各 类 样本 的 数量 相当 ,如 果 各 类 样本 数量 稍 有 差别 ， 
通常 影响 不 大 。 但 当 差 别 很 大 时 ， 会 造成 很 大 困难 ， 这 称 为 类 别 不 平 
衡 问题 。 实 际 中 这 种 情况 很 多 ， 比 如 欺诈 预测 ( 世界 还 是 好 人 多 ), 自 
然 灾 害 预测 ( 地 球 是 仁慈 的 )， 识 别 恶性 肿瘤 〈 不幸 的 人 毕竟 是 少数 ) 
等 。 假 设 二 分 类 问题 ， 正 类 数量 是 0.1 万 ， 负 类 数量 是 100 万 ， 如 果 
模型 只 是 把 新 样本 永远 预测 为 负 类 ， 就 能 达到 99.9% 的 准确 率 ， 但 其 
实 模型 什么 都 没有 学 习 ， 没 有 任何 价值 ， 因 为 不 能 预测 出 正 类 ， 所 以 
此 时 不 能 用 准确 率 来 评估 模型 。 而 要 采用 FI 分 数 的 加 权 形 式 Fp， 表 
达 出 对 查 全 率 查 准 率 不 同 偏好 ， 定 义 为 


| 
Fg (1« B ) P R (11.3) 


其 中 等 于 1 时 是 F7 分 数 ，B 大 于 1 时 偏重 查 全 率 ，B 小 于 
1 时 偏重 查 准 率 。 类 别 不 平衡 问题 一 般 对 稀少 类 偏重 查 全 率 ， 可 以 牺 
牲 一 定 的 查 准 率 ,例如 识别 恶性 肿瘤 时 肯定 要 把 所 有 肿瘤 都 识别 出 来 ， 

不 能 把 肿瘤 识别 成 正常 组 织 ， 因 为 患者 可 能 因此 失去 最 佳 治疗 时 间 ; 
相反 把 正常 组 织 识别 成 肿瘤 ， 则 代价 很 小 。 可 令 6 SETS. Hn, Xx 
据 集中 肿瘤 样本 10 个 〈 正 类 )， 非 肿瘤 样本 10000 ( 负 类 )。 如 果 模 型 
把 样本 都 预测 为 非 肿 瘤 样 本 , 则 查 全 率 为 0， 查 准 率 为 0，Fy 为 0, 准 
确 率 却 为 99.9%， 显 然 Fy 合理 很 多 。 假 如 模型 为 了 不 漏 测 正 样本 ,把 
所 有 正 类 都 预测 为 正 类 ， 但 同时 负 类 预测 为 正 类 的 比例 也 会 增加 ， 如 
为 1%， 则 查 全 率 为 100% ， 查 准 率 为 10/10+10000*1%)=9.1%, FpJ 
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72.2%，F 为 16.7%， 可 见 Fy 更 偏向 查 全 率 。 准 确 率 为 99.0%， 还 是 
Fp 合理 。 只 有 模型 把 正 负 样本 都 分 类 很 准确 ，Fy 才 能 很 高 。 这 个 例子 
对 生活 很 有 启示 ， 对 于 一 些 发 病 率 很 低 的 严重 疾病 ， 此 时 正 样 本 比例 
很 少 ， 检 测 仪器 为 了 提高 查 全 率 ， 往 往 查 准 率 很 低 ， 可 能 低 于 1096, 
所 以 即使 检测 为 阳性 ， 不 要 太 担 心 ， 因 为 查 准 率 很 低 ， 大 部 分 都 是 假 
阳性 ， 但 是 进一步 的 排查 还 是 很 有 必要 的 。 


类 别 不 平衡 问题 之 所 以 会 对 机 器 学 习 方 法 造成 问题 ， 是 因为 模型 
的 损失 函数 定义 方式 与 评估 指标 Fy 不 一 臻 造成 的 。 损失 函数 是 对 一 个 
批 次 的 每 个 训练 样本 的 损失 取 算术 平均 ， 这 种 定义 方式 中 每 个 样本 的 
权重 都 是 一 样 的 , 此 时 用 准确 率 来 评估 模型 是 最 合适 的 。 但 如 前 所 述 ， 
准确 率 用 来 评估 类 别 不 平衡 问题 是 十 分 糟糕 的 , 应 采用 Fy 评估 。 但 目 
前 的 问题 是 , 与 Fy 评估 一 致 的 损失 函数 还 没有 被 发 现 , 或 者 太 复杂 目 
不 可 导 ， 以 至 于 不 能 使 用 梯度 下 降 法 进行 训练 ， 没 有 实际 价值 。 只 能 
退 而 求 其 次 ,找到 一 种 损失 函数 能 较 好 近似 Fg 指标, 目前 最 常用 最 简 
单 的 是 加 权 损 失 函 数 ， 即 对 正 负 样本 的 损失 取 不同 权 重 ， 一般 是 增加 
稀少 类 别 的 权重 ， 因 为 稀少 类 别 一 般 更 重要 。 那 么 正人 负 样 本 权 值 如 何 
取 呢 ?一般 来 说 ,根据 真实 生产 环境 中 的 正 负 样本 比例 来 取 值 较为 稳 


M. 


女 o 


还 有 一 种 损失 函数 是 所 谓 的 FL (focal loss ) 损失 , 也 是 加 权 损 失 , 
只 是 权重 不 是 常数 , 而 是 对 训练 好 的 样本 权重 小 。 因 为 类 别 不 平衡 时 ， 
多 数 类 很 容易 训练 到 较 高 概率 ， 少 数 类 很 难 训练 好 ， 所 以 如 果 能 自 适 
应 地 减 小 高 概率 样本 的 权重 , 则 可 以 减轻 多 数 类 的 影响 , FL 损失 公式 
如 下 : 
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FL(p)=-(1- p,)’ log(p,) (11.4) 


其 中 p, 是 样本 的 概率 , y 是 大 于 0 的 参数 , 通常 取 2。 可 见 与 常规 
的 损失 函数 相 比 ， 权 重 为 (1-pD*， 这 样 当 pt 大 于 0.6 时 ,权重 很 小 ; pt 
小 于 0.3 时 ， 权 重 较 大 。 这 样 可 以 让 损失 聚焦 于 难 样本 〈 即 少 数 类 样 
本 )， 提 高 其 学 习 效 果 。 


c 


TA RR MRS CERK, RESI: 


FL(p,)=- a (1- p)' log(p) (15 


at 是 常数 权重 ， 对 于 多 数 类 取 值 0.75 ， 少 数 类 取 0.25 比较 合适 。 


采用 加 权 损 失 函 数 后 ， 如 果 模 型 效果 还 不 行 ， 优 先 考 虑 采集 更 多 
的 数据 以 增加 稀少 类 别 的 样本 数 。 有 两 种 方式 ， 第 一 是 只 增加 稀有 类 
别 的 样本 数 ， 多 数 类 别 样本 不 增加 ， 这 种 方式 增加 的 样本 总 数 少 ， 
省 计算 资源 ， 能 显著 提高 稀有 类 别 的 查 全 率 ， 故 常 采 用 这 种 方式 。 第 
二 种 就 是 按 原 始 比 例 增加 所 有 类 别 样本 数据 ， 这 种 方式 增加 的 样本 总 
数 很 多 ， 需 要 大 量 计算 资源 。 


二 


然后 再 考虑 对 训练 集 进 行 过 采样 或 从 采样 处 理 ， 优 先 考虑 过 采 
样 。 


1、 过 和 采样， 人 为 增加 数量 少 类 别 的 样本 。 一 种 是 直接 复制 样本 ， 
另 一 种 是 对 样本 进行 改造 生成 “新 样本 ”。 深 度 学 习 采 用 数据 增加 技术 
来 增加 样本 ， 但 增加 比例 不 能 过 高 ， 如 一 个 样本 最 多 生成 20 个 样本 。 
如 果 比 例 过 大 ， 会 对 稀少 类 别 过 拟 合 ， 增 大 方差 。 
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2、 欠 采样 ， 删 除 样本 数量 多 的 类 。 一 般 希 望 删除 很 容易 区 分 的 
样本 ,计算 法 专注 于 难 区 分 样本 ， 这 样 模型 的 泛 化 性 能 更 好 。 有 三 种 
方式 删除 样本 ， 一 是 随机 删除 ; 二 是 利用 先 验 知 识 人 为 删除 易 区 分 样 
本 ， 比 如 删除 与 肿瘤 图 像 明显 不 同 的 图 像 ， 三 是 先 训练 一 个 模型 ， 然 
后 根据 模型 结果 删除 易 区 分 样本 ， 比 如 采用 softmax 分 类 器 时 ， 如 果 
样本 的 概率 很 接近 1， 说 明 样本 很 像 该 类 别 ， 易 于 区 分 ， 如 果 概 率 很 
低 说 明 特 征 不 明显 ， 模 楼 两 可 ， 所 以 可 以 删除 概率 接近 1 的 样本 。 这 
三 种 方法 可 以 单独 使 用 ， 也 可 以 同时 使 用 ， 即 首先 人 工 删 除 易 区 分 样 
本 ， 然 后 对 数量 多 的 类 别 下 采样 ， 使 各 个 类 别 数量 相当 ， 训 练 一 个 模 
型 ， 使 用 模型 删除 概率 很 高 的 样本 ， 最 后 如 果 还 不 平衡 则 随机 删除 。 
其 中 模型 删除 法 比较 复杂 ， 读 者 可 以 查阅 相关 文献 。 欠 采样 由 于 删除 
了 部 分 样本 , 这 部 分 样本 有 可 能 会 预测 错误 , 所 以 查 准 率 一 般 会 提高 ， 
查 全 率 有 可 能 也 会 提高 ， 这 样 就 造成 了 对 实际 系统 的 乐观 估计 ， 所 以 
需要 谨慎 采用 。 


当 类 别 不 平衡 很 严重 时 ， 这 两 种 方法 可 以 同时 采用 ， 对 少 样本 的 
类 别 过 采样 ， 对 多 样本 的 类 别 欠 采样 。 


经 过 采样 后 ， 训 练 集中 稀少 类 别 的 比例 变 大 ， 此 时 数据 分 布 与 实 
示 情 况 不 一 臻 了， 会 产生 数据 不 匹配 问题 。 如 果 数 据 不 匹配 问题 很 严 
重 ， 则 采样 后 的 比例 尽 可 能 保持 原 有 比例 ， 如 果 不 严重 ， 比 例 可 以 向 
1:1 靠拢 ,以 降低 网 络 训练 难度 。 具 体 比 例 需 要 平衡 数据 不 匹配 问题 和 
网 络 训练 难度 。 


ER 


验证 集 测试 集 不 能 进行 采样 处 理 ， 只 能 包含 原始 样本 ， 需 与 实际 


第 11 章 工程 实践 中 的 问题 259 


部 署 情况 一 致 ， 此 时 需 用 Fp 指标 评 佑 模型 。 


采用 随机 梯度 下 降 法 训练 模型 时 ， 由 于 损失 函数 是 加 权 的 ， 每 个 
批量 样本 中 不 需要 每 类 样本 数量 一 样 多 ， 只 需 和 训练 集 的 比例 一 致 即 
可 。 


由 于 稀有 类 别 的 样本 数 一 般 较 少 ， 多 采用 迁移 学 习 。 如 果 稀 有 类 
别 的 样本 数 很 少 ， 也 可 以 采用 单 分 类 Cone-class ) 的 异常 检测 方法 。 


最 后 还 可 采用 集成 学 习 方法 ， 其 思路 是 采用 随机 欠 采 样 方法 减少 
各 大 类 中 的 样本 数量 , 得 到 相对 平衡 的 数据 集 , 学 习 得 到 一 个 分 类 屁 ; 
多 次 独立 地 重复 以 上 采样 学 习 过 程 ， 得 到 多 个 分 类 器 ; 集成 所 有 分 类 
器 得 到 最 终 模型 。 集 成 方式 常用 随机 森林 或 AdaBoost 方法 。 


11.13 负 样 本 采集 


二 分 类 问题 中 ， 正 类 就 是 要 检测 的 类 别 ， 负 类 就 是 非 正 类 或 称 为 
背景 。 假 设 研究 无 人 驾驶 ， 要 设计 车 辆 分 类 天 ， 此 时 正 类 就 是 车 辆 ， 
负 类 就 是 没有 车 辆 的 背景 区 域 。 首 移 要 收集 样本 ， 就 是 要 收集 大 量 正 
负 样 本 ， 且 数量 大 致 相当 。 正 样本 好 收集 ， 就 是 收集 各 种 包含 车 辆 的 
区 域 ， 那 负 样 本 呢 ? 感觉 就 是 收集 大 量 不 包含 车 辆 的 区 域 ， 其 实 并 不 
简单 ， 是 机 天 学 习 里 面 一 个 比较 难 解决 的 问题 。 因 为 不 包含 车 辆 的 区 
域 太 广 泛 了 太 多 了 ， 比 如 天 空 海 详 沙漠 行人 建筑 路 面 树木 等 等 ， 如 果 
任意 选择 势必 会 造成 负 样本 过 量 ， 导 致 类 别 不 平衡 问题 ， 同 时 有 可 能 
会 选 出 很 多 与 车 辆 差别 很 明显 的 区 域 ， 导 致 分 类 器 很 容易 学 习 出 ， 但 
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分 类 顺 性 能 比较 差 ， 因 为 遇 到 与 车 辆 比较 接近 的 负 样 本 就 容易 预测 错 
误 。 所 以 负 样本 采集 的 核心 问题 就 是 采集 尽 可 能 少 的 负 样 本 ， 同 时 训 
练 出 性 能 好 的 分 类 噩 ， 关 键 是 采集 到 难 样本 ， 即 与 车 辆 很 相似 的 负 样 
本 。 


为 了 减 小 采集 样本 的 数量 ， 一 般 只 在 限定 场景 采集 ， 比 如 无 人 加 
驶 只 需 在 道路 场景 采集 ， 不 需要 在 天 空 海洋 沙漠 等 场景 采集 ， 因 为 无 
人 车 不 可 能 采集 到 这 些 场景 的 照片 ， 所 以 无 需 对 这 些 照片 进行 区 分 ， 
这 样 就 大 大 缩小 了 范围 ， 减 小 了 负 样 本 数量 。 


为 了 采集 到 难 样本 ， 一 般 采 用 迭代 法 ， 逐 步 采 集 到 越 来 越 难 的 样 
本 。 首 先 在 限定 场景 内 收集 海量 不 包含 正 样本 的 负 样本 集 ， 然 后 在 每 
张 照片 中 随机 截取 数 个 区 域 ( 因为 车 辆 一 般 是 整 幅 照 片 的 一 个 区 域 ， 
所 以 负 样 本 也 是 图 片 的 一 个 区 域 ), 一 张 照片 可 以 只 截取 一 个 区 域 , 也 
可 以 截取 多 个 区 域 。 这 些 区 域 组 成 首 轮 负 样 本 集 ， 其 数量 和 正 样 本 一 
样 多 ， 或 2 倍 或 3 倍 。 利 用 这 些 负 样 本 和 正 样本 训练 分 类 器 。 有 了 分 
类 器 ， 就 可 以 利用 分 类 器 采集 难 样本 ， 即 分 类 需 预 测 正确 的 负 样本 是 
易 样 本 ， 预 测 错误 的 是 难 样本 。 第 二 轮 负 样本 集 采 集 方式 为 : 分 类 天 
首先 对 首 轮 负 样 本 集 进行 预测 ， 如 果 预 测 为 正 样本 ， 则 放 和 人 第 二 轮 负 
样本 集 ; 其 次 分 类 器 预 测 海 量 负 样 本 集中 随机 区 域 ， 如 果 预 测 为 正 样 
本 ， 则 放 和 第 二 轮 负 样 本 集 ， 直 到 第 二 轮 负 样 本 集 数 量 达到 要 求 。 
利用 第 二 轮 负 样本 集 和 正 样本 训练 分 类 器 ， 又 利用 此 分 类 器 采集 第 三 
轮 样本 集 ， 采 集 方 法 不 变 ， 再 训练 ， 如 此 不 断 迭 代 ， 选 出 的 负 样 本 会 
越 来 越 难 ， 分 类 需 性 能 会 越 来 越 好 ， 分 类 天 的 学 习 容 量 也 因此 需要 越 
来 越 大 。 后 期 挑选 出 负 样 本 会 很 难 ， 需 要 从 大 量 区 域 去 挑选 ， 需 要 大 
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量 计算 资源 ， 比 如 后 期 分 类 器 性 能 很 好 ， 负 样本 错 分 率 为 1%， 则 要 
产生 1 万 的 负 样本 ， 需 要 大 概 采集 100 万 个 区 域 ， 并 对 这 100 万 个 区 
域 进行 分 类 。 


最 终 模 型 可 以 是 最 后 一 轮 输出 的 复杂 模型 ， 有 可 能 需要 使 用 所 有 
轮 收集 的 负 样 本 和 正 样本 对 该 模型 进行 微调 ， 采 用 加 权 损 失 函 数 ， 即 
后 面 轮 的 负 样 本 权重 越 来 越 高 , 因为 样本 越 来 越 难 , 正 样本 权重 最 大 。 


最 终 模型 也 可 以 是 所 有 轮 输 出 模型 的 集成 ， 此 时 不 需要 微调 模 
型 ， 样 本 依次 进入 各 轮 模 型 ， 如 果 某 轮 模型 预测 为 负 样本 ， 则 预测 结 
束 ; 如 果 预 测 为 正 样本 ， 则 进入 下 一 轮 模 型 ， 直 到 最 后 一 轮 模 型 。 集 
成 模型 的 优点 是 预测 速度 快 ， 因 为 实际 场景 中 ， 大 部 分 样本 是 易 识 别 
的 负 样本 ， 因 此 只 需 很 少 轮 的 预测 ， 就 能 预测 为 负 样本 ， 从 而 结束 预 
测 过 程 ， 只 有 极 少 的 难 负 样本 需要 多 轮 预 测 ， 注 意 正 样本 需要 到 最 后 
一 轮 ， 但 正 样本 在 实际 场景 中 的 数量 很 稀少 。 且 前 几 轮 模型 可 以 设计 
得 很 轻 量 ， 如 线性 模型 或 者 只 有 一 个 隐 含 层 且 单元 数 很 少 的 模型 ， 预 
测速 度 很 快 。 还 可 以 采用 的 加 速 技术 有 : 前 几 轮 模型 不 需要 样本 所 有 
特征 ， 只 需 样本 最 具有 区 分 度 的 几 个 重要 特征 ， 后 面 的 几 轮 才 取 越 来 
越 多 的 特征 。 具 体 实 现 方式 读者 可 以 阅读 著名 的 基于 AdaBoost 的 人 脸 
检测 算法 。 


其 实 多 分 类 问题 也 存在 负 样 本 采集 问题 ， 假 设 无 人 驾驶 ， 要 设计 
商务 车 、 乘 用 车 、 公 交 和 车、 卡车、 三轮车、 摩托 车 多 分 类 器 ， 道 路 场 
景 中 的 背景 区 域 就 是 这 些 类 别 的 共同 负 类 ， 只 需 把 要 检测 的 所 有 类 别 
看 作 一 个 超级 正 类 ( 都 是 各 种 车 辆 ) 就 好 理解 。 采 集 负 样本 的 手段 和 
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二 分 类 一 致 ， 也 是 采用 迭代 法 采集 越 来 越 难 的 样本 。 这 项 技术 广泛 运 
用 于 目标 检测 领域 。 


11.14 快速 搭建 并 迭代 系统 


如 果 开 发 全 新 的 机 器 学 习 应 用 ， 应 该 尽快 建立 第 一 个 系统 原型 ， 
然后 快速 迭代 。 


假如 建立 一 个 新 的 语音 识别 系统 ， 可 以 优先 考虑 很 多 事情 。 比 如 
有 一 些 技术 对 嗜 杂 背景 更 加 健壮 ， 如 咖啡 店 噪音 ， 里 面 有 背景 音乐 或 
很 多 人 聊天 ， 或 者 车 辆 噪音 。 有 一 些 方法 对 口音 更 健壮 ， 还 有 所 谓 的 
和 远 场 语音 识别 问题 即 麦 克 风 与 说 话 人 距离 很 远 。 儿 童 语音 识别 带 来 特 
丈 的 挑 成 ， 挑 成 来 自 单词 发 音 方面 ， 还 有 他 们 使 用 的 词汇 。 还 有 说 话 
人 口吃 或 者 说 了 很 多 无 意义 的 短语 ， 比 如 “ 哦 "…“ 呵 ”之 类 的 。 可 以 选择 
很 多 不 同 的 技术 ， 让 听写 下 来 的 文本 可 读 性 更 强 ， 可 以 做 很 多 事情 来 


改进 语音 识别 系统 。 


一 般 来 说 ， 几 乎 所 有 的 机 器 学 习 应 用 都 可 能 会 有 50 个 不 同 的 方 
向 可 以 前 进 ， 并 且 每 个 方向 都 是 相对 合理 的 。 但 挑战 在 于 ， 如 何 选择 
一 个 方向 集中 精力 处 理 。 所 以 笔者 建议 ， 如 果 拱 建 全 新 的 机 器 学 习 应 
用 ,不 要 把 系统 设计 得 太 复 杂 ， 要 快速 搭 出 第 一 个 粗糙 模型 ， 然 后 开 
始 迭 代 。 就 是 快速 设立 验证 集 、 测 试 集 和 评估 指标 ， 这 样 就 决定 了 系 
统 的 目标 ， 然 后 找到 训练 集 ， 拱 好 一 个 机 融 学 习 系 统 原 型 ， 训 练 一 下 
看 看 效果 , 开始 理解 算法 表现 , 在 验证 集 测 试 集 评估 指标 上 表现 如 何 。 
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采用 偏差 /方差 分 析 和 错误 分 析 , 来 确定 下 一 步 优先 做 什么 。 特别 地 ， 
如 果 错 误 分 析 表 明 大 部 分 错误 来 源 是 说 话 人 远离 麦克 风 ， 那 么 就 集中 
精力 研究 远 场 语音 识别 技术 。 即 使 最 初 的 目标 定 错 了 ， 之 后 也 是 可 以 
修改 的 。 


I3 


第 一 个 粗糙 模型 尽量 做 到 对 训练 集 效果 很 好 ， 即 使 过 拟 合 也 可 
以 。 构 建 原则 为 ， 网 络 架构 采用 经 典 结构 如 VGG 或 ResNet， 降 低 正 
则 化 强度 甚至 可 以 不 要 正则 化 , 优化 算法 采用 Adam( 使 用 默认 参数 )， 
学 习 率 取 默 认 值 0.001， 激 活 函 数 采 用 ReLU， 评 佑 指标 采用 准确 率 ， 
然后 在 满足 运行 时 间 前 提 下 尽 可 能 采用 大 容量 网 络 ， 以 加 大 网 络 深度 
优先 。 接 着 只 对 学 习 率 超 参数 进行 调 优 ， 使 模型 对 训练 集 效果 很 好 ， 
如 果 模 型 对 训练 集 效 果 始 终 不 是 很 好 ， 尝试 把 激活 函数 改 为 ELU、 增 
加 批量 归 一 化 BN。 当 模型 对 训练 集 效果 很 好 时 ， 如 果 此 时 有 较 大 方 
差 ， 慢 慢 提高 正则 化 强度 或 增加 Dropout， 减 小 过 拟 合 。 之 后 才能 采 
用 错误 分 析 确定 下 一 步 优先 方向 。 


如 果 读 者 在 某 个 应 用 领域 有 很 多 经 验 ， 建 议 适 用 程度 要 低 一 些 。 
还 有 一 种 情况 的 适应 程度 更 低 ， 当 这 个 领域 有 很 多 学 术 文 献 时 ， 那 么 
可 以 借鉴 学 术 文献 ， 一 开始 就 搭建 比较 复杂 的 系统 ， 比 如 人 脸 识别 、 
人 体 关键 点 定位 和 人 脸 关键 点 定位 等 等 。 
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图 像 分 类 是 判断 图 像 中 是 否 有 感 兴趣 的 对 象 ( 如 车 辆 ), 这 是 计算 
机 视觉 的 基础 和 核心 任务 。 图 像 分 类 的 用 处 比较 有 限 ， 比 如 在 无 人 轰 
驶 中 ， 只 知道 前 方 道路 有 车 辆 是 不 够 的 ， 还 需 知 道 车 辆 的 位 置 ， 才 能 
采取 合理 的 驾驶 策略 ， 如 减速 、 加 速 或 跟 车 。 目 标 检测 就 是 用 来 解决 


这 个 问题 的 。 


12.4 目标 定位 


图 12.1 目标 定位 
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为 了 让 大 家 更 清晰 地 理解 概念 ， 先 从 最 简单 的 定位 任务 开始 。 在 
图 像 分 类 任务 中 ， 通 常 图 像 只 有 一 个 对 象 且 对 象 较 大 ， 占 据 了 大 部 分 
面积 ， 分 类 任务 需要 给 出 对 象 的 类 别 ， 如 汽车 、 摩 托 车 和 行人 等 。 目 
标定 位 任务 和 分 类 任务 十 分 相似 ， 图 像 中 也 是 只 有 一 个 较 大 的 对 象 ， 
但 需要 给 出 其 类 别 和 位 置 。 表 示 物 体 的 位 置 ， 目 前 最 主流 的 做 法 是 用 
一 个 水 平和 矩形 框 包围 物体 ， 和 矩形 框 要 能 全 部 包围 物体 且 面 积 最 小 ， 即 
要 求 矩 形 框 尽 可 能 接近 物体 边界 ， 该 矩形 框 称 为 边界 框 (Bounding 
Box )， 所 以 只 要 确定 了 边界 框 的 位 置 就 相当 于 定位 了 物体 。 在 图 像 的 
二 维 平面 上 ， 描 述 边 界 框 需要 4 个 参数 ， 最 常用 的 方式 是 给 出 边界 杠 
的 中 心 坐标 (bx, by ) 和 高 度 宽度 (bh, bw ), 这 4 个 参数 [bx, by, bh, bw] 
称 为 边界 框 向 量 。 为 了 便于 网 络 学 习 ， 这 4 个 元 素 需 在 0 到 1 之 间 ， 
所 以 需要 对 图 像 坐标 进行 归 一 化 ， 即 定义 图 像 左上 角 像 素 坐 标 为 (0， 
0 )， 右 下 角 像 素 坐 标 为 (1,1) o 


图 像 分 类 任务 是 通过 端 到 端 学 习 的 ， 输 入 图 像 到 多 层 卷 积 网 络 ， 
网 络 输 出 分 值 向 量 ， 最 后 由 softmax 层 预 测 图 像 类 别 。 那 么 如 何 得 到 
边界 框 向 量 呢 ? 能 不 能 采用 多 任务 学 习 思 想 ， 让 网 络 不 仅 输出 分 值 向 
量 ， 同 时 还 输出 边界 框 向 量 呢 ? 这 完全 是 可 行 的 ， 而 且 实 践 证 明 效 果 
很 好 。 目 标定 位 的 核心 思想 是 端 到 端 学 习 和 多 任务 学 习 ， 其 实 目标 检 
测 的 核心 思想 也 一 样 是 这 两 点 ， 如 果 读 者 对 这 两 种 学 习 方 法 不 熟悉 ， 
希望 移 看 第 11 竟 ， 再 继续 下 面 的 学 习 。 


以 无 人 驾驶 为 例 ， 为 了 便于 描述 ， 简 化 问题 ， 假 设 只 检测 汽车 、 
摩托 车 和 行人 3 类 对 象 , 因为 道路 中 有 时 只 有 背景 , 并 没有 检测 对 象 ， 
所 以 网 络 输出 向 量 应 该 是 y=[po, c1, c2, c3, bx, by, bh, bw]8 维 向 量 ， 而 
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分 类 只 需 输出 y=[po, cl, c2, c3]4 维 向 量 。 制 作 训练 样本 的 标签 时 ，8 
维 向 量具 体 取 值 如 下 , 如 果 图 像 中 有 检测 对 象 ( 汽车 、 摩 托 车 或 行人 )， 
则 po=1; 如 果 图 像 中 只 有 背景 ， 则 po=0; [cl, c2, c3] 是 分 值 向 量 ， 目 
标定 位 问题 中 最 多 只 有 一 个 对 象 , 所 以 cl, c2, c3 中 有 且 仅 有 一 个 等 
于 1， 其 他 为 0。 比 如 图 像 中 有 汽车 ， 则 cl=1，c2=0，c3=0， 有 摩托 
车 则 cl1=0，c2=1，c3=0， 有 行人 则 cl=0，c2=0，c3=1; [bx, by, bh, bw] 
是 对 象 边 界 框 向 量 。 当 po=0 时 ,由 于 没有 对 象 , 所 以 剩 下 的 7 个 元 素 
毫 无 意义 ， 不 需要 指定 。 


定义 损失 函数 时 , po 33 48: [n1 UH PLC C Logistic regression ), [c1, 
c2, c3 PK HI softmax 损失 函数 ，[bx, by, bh, bw] 采 用 L2 范 数 损失 。 特 别 
注意 ， 当 po=1 时 ， 总 损失 是 3 个 损失 的 加 权 和 ; 当 po=0 时 ， 由 于 没 
有 对 象 , 损失 中 只 有 po 的 损失 才 有 意义 ,总 损失 就 是 po 损失 。 可 见 ， 
目标 定位 实质 是 分 类 (类别 ) 和 回归 ( 边界 框 ) 任务 之 和 。 


预测 新 样本 时 ，po 越 接近 1 说 明 有 对 象 的 概率 越 高 ， 接 近 0 说 明 
没有 对 象 。[cl, c2, c3] 最 大 位 置 给 出 对 象 类 别 ， 例 如 c2 最 大 ， 则 对 象 
是 摩托 车 ; cl 最 大 ， 则 对 象 是 汽车 等 。 最 大 值 与 其 他 值 相差 越 多 ， 属 
于 该 类 别 的 概率 就 越 高 ， 概 率 pc 由 softmax 函数 给 出 。 所 以 实践 中 ， 
采用 阔 值 法 判断 图 像 中 是 否 有 对 象 ， 如 果 po 和 pc 乘积 大 于 阔 值 ， 则 
存在 对 象 ， 小 于 阔 值 则 没有 对 象 ， 阔 值 可 以 取 0.6， 也 可 以 取 0.7。 有 
对 象 时 [bx, by, bh, bw] 是 对 象 边界 框 向 量 。 


目标 定位 的 网 络 结构 和 分 类 网 络 完 全 一 样 ， 都 是 多 层 卷 积 层 加 全 
连接 层 ， 只 是 最 后 全 连接 层 的 输出 向 量 不 仅 包含 C 个 (类别 数目 ) 分 
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值 向 量 ， 还 需 加 上 5 个 元 素 [po, bx, by, bh, bw]; 


12.2 目标 检测 


图 12.2 目标 检测 


目标 定位 任务 中 图 像 具有 一 个 对 象 ， 但 目标 检测 任务 中 一 般 有 多 
个 对 象 ， 有 时 对 象 多 达 几 十 个 。 目 标 检测 任务 的 核心 思想 就 是 多 任务 
学 习 ， 即 把 每 个 对 象 的 检测 任务 看 成 一 个 目标 定位 任务 ， 同 时 完成 多 
个 目标 定位 任务 。 但 是 难度 大 很 多 , 因为 目标 定位 任务 中 对 象 比 较 大 ， 
而 目标 检测 任务 中 ， 对 象 大 小 变化 很 大 ， 小 的 对 象 可 能 只 占 整 幅 图 像 
的 2%， 大 的 对 象 可 能 占 整 幅 图 像 的 50%， 尺 度 差别 有 20 倍 以 上 。 卷 
积 网 络 不 具有 尺度 不 变性 ， 很 难 同 时 处 理 好 尺度 差别 这 么 大 的 对 象 ， 
所 以 目标 检测 任务 困难 很 多 。 
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假设 有 3 类 对 象 , 每 个 对 象 的 目标 定位 任务 需 输 出 ob-[po, cl, c2, 
c3, bx, by, bh, bw] 向量 ， 多 个 对 象 则 需 输 出 多 个 向 量 05。 这 里 存在 一 
个 问题 ,图 像 中 对 象 数目 不 定 , 输 出 几 个 向 量 ob 合适 呢 ? 解决 方案 是 ， 
根据 先 验 知识 ， 道 路 环境 下 对 象 数量 一 般 在 几 十 以 内 ， 则 可 以 输出 49 
个 向 量 o8。 这 样 绝 大 部 分 情况 下 都 能 适应 ， 只 有 当 对 象 数量 超过 49 
后 ， 超 过 部 分 不 能 检测 。 如 果 其 他 应 用 ， 对 象 数量 很 少 ， 当 然 也 可 以 
只 输出 9 个 向 量 ob 


图 12.3 7 x 7 网 格 


现在 假设 图 像 有 3 个 对 象 ， 如 何 制 作 该 图 像 的 标签 呢 ? 此 时 假设 
网 络 输出 49 个 向 量 ob, BERRA 3 个 对 象 ， 这 3 个 对 象 如 何 分 配 
到 这 49 个 向 量 中 的 3 个 呢 ? 采用 位 置 匹配 法 。 具 体 方式 如 下 : 首先 把 
整 幅 图 像 分 割 成 7x7 网 格 ， 因 为 输出 有 49 个 向 量 og (7 x7=49 )， 然 
后 根据 每 个 对 象 边界 框 的 中 心 位 置 落 在 哪个 网 格 , 则 匹配 给 对 应 向 量 。 
因为 图 像 分 割 为 网 格 ， 所 以 输出 的 49 个 向 量 也 按 网 格 排列 成 7x7。 
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12.3 中 第 1 个 对 象 汽车 边界 框 的 中 心 位 置 落 在 第 2 行 第 6 列 网 格 内 ， 
则 匹配 到 对 应 的 第 2 行 第 6 列 的 向 量 。 第 2 个 对 象 自行 车 边界 框 的 中 
心 位 置 落 在 第 4 行 第 3 列 网 格 内 ， 则 匹配 到 对 应 的 第 4 行 第 3 列 的 向 
量 。 一 定 要 注意 ， 按 对 象 边 界 框 的 中 心 位 置 进 行 一 一 匹配 ， 按 照 这 个 
原则 , 可 以 把 所 有 对 象 匹 配 到 相应 的 向 量 。 如 果 某 个 网 格 内 没有 对 象 ， 
即 没有 对 象 边 界 框 的 中 心 落 入 这 个 网 格 〈 如 图 12.3 中 第 6 行 第 1 列 网 
格 )， 则 对 应 位 置 向 量 的 po=0， 其 他 7 个 元 素 毫 无 意义 ， 不 需 指定 。 
再 次 强调 , 某 个 网 格 没有 匹配 对 象 , 不 表明 该 网 格 内 不 存在 任何 对 象 ， 
只 是 对 象 边界 框 的 中 心 位 置 没 有 落 入 而 已 ， 边 界 框 的 其 他 部 分 可 以 落 
入 该 网 格 。 所 以 一 个 对 象 可 以 覆盖 多 个 网 格 ， 当 然 小 对 象 有 可 能 只 位 
于 1 个 网 格 内 ; 一 个 网 格 可 以 被 多 个 对 象 覆 盖 ， 也 可 以 没有 被 对 象 覆 
盖 或 只 被 1 个 对 象 覆 盖 。 这 种 方法 的 思想 是 向 量 只 负责 其 对 应 位 置 处 
的 对 象 检测 , 但 对 象 的 形状 和 大 小 不 定 。 图 像 一 般 分 割 为 nxn 网 格 且 
n 为 奇数 ， 通 常 取 3 到 13。 因 为 大 对 象 边界 框 的 中 心 位 置 一 般 位 于 图 
像 中 心 ， 如 果 n 取 偶数 ， 如 2x2， 则 大 对 象 无 法 匹配 。 


LH 


损失 函数 取 所 有 向 量 ob. 的 损失 的 和 。 在 目标 检测 任务 中 , 大 部 分 
网 格 没有 和 对 象 匹 配 ， 所 以 向 量 ob 损失 中 po 损失 出 现 类 别 不 平衡 的 
问题 ，po=0 的 样本 远大 于 po=1 的 样本 ， 可 以 采用 第 11 章 介绍 的 FL 
损失 。 向 量 ob 损失 中 的 类 别 损失 和 目标 定位 任务 一 样 ， 采 用 softmax 
损失 ， 边 界 框 [bx, by, bh, bw] 损 失 采 用 L2 损 失 。 


预测 新 样本 和 目标 定位 一 样 , 如 果 某 个 向 量 ob 的 po 和 pc 乘积 
于 阔 值 ， 则 说 明 该 向 量 预测 到 1 个 对 象 ， 对 象 位 置 由 [bx, by, bh, bw] 决 


定 。 
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目标 检测 的 网 络 结构 和 目标 定位 的 网 络 结 构 不 一 样 ， 目 标 检测 的 
网 络 输出 是 7x7x8 的 3D 特征 图 ， 目 标定 位 的 网 络 输出 是 8 维 向 量 ， 
可 以 看 作 1x 1x 8 的 3D 特征 图 ， 是 目标 检测 的 一 种 特殊 情况 ， 即 图 
像 分 割 为 1x1 的 网 格 , 相当 于 没有 分 割 。 网 络 结构 上 , 目标 检测 网 络 
全 部 由 卷 积 层 组 成 ， 不 能 加 全 连接 层 ， 因 为 全 连接 层 容易 丢失 位 置信 
息 ， 导 致 对 象 的 位 置 不 准 。 


采用 这 种 端 到 端的 检测 方法 ， 读 者 容易 犯 的 一 个 错误 是 ， 认 为 网 
络 只 是 利用 了 对 象 所 占据 的 局 部 区 域 信 息 进行 预测 ， 其 他 区 域 信息 没 
有 用 来 预测 该 对 象 。 其 实 , 网 络 利 用 的 是 整 幅 图 像 信息 进行 对 象 预测 ， 
即使 对 象 很 小 只 占据 了 1 个 网 格 ， 因 为 网 络 输出 的 3D 特征 图 的 每 个 
深度 维 信息 ( 就 是 一 个 向 量 o8 ) 的 感受 野 是 整 幅 图 像 。 由 于 有 全 局 视 
野 ， 这 种 方法 不 容易 把 背景 区 域 误 识别 为 对 象 ， 同 时 泛 化 性 能 好 ， 由 
自然 图 像 训练 的 检测 网 络 ， 对 非 自然 图 像 物 体 的 检测 效果 好 ， 能 用 于 
绘画 作品 中 的 物体 检测 。 采 用 端 到 端 学 习 方法 ， 网 络 结构 简单 ， 检 测 
速度 较 快 。 


采用 全 局 视野 ， 也 有 浆 端 ， 物 体位 置 精 准 性 差 ， 边 界 框 不 准 ， 同 
时 难以 检测 出 小 物体 ， 小 物体 的 查 全 率 较 低 。 为 了 提高 对 小 物体 的 检 
WAR, 有 3 个 手段 , 第 一 是 增 大 输入 图 像 尺 寸 ， 从 208 x 208 增加 到 
416x416， 第 二 是 增 大 网 络 输出 的 空间 分 辩 率 ， 比 如 从 7x7 增加 到 
13 x 13, 第 三 是 融合 多 尺度 的 特征 图 , 获取 不 同 分 辨 率 , FEIL 12.6 节 。 
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12.3 JERAHA] NMS 


图 12.4 非 极 大 值 抑制 


网 络 预测 新 样本 时 ， 每 个 网 格 输出 1 个 边界 框 ， 预 测 1 个 对 象 。 
实际 中 经 常会 出 现 一 个 对 象 被 相 邻 的 多 个 网 格 预测 ， 导 致 一 个 对 象 画 
出 多 个 边界 框 。 多 个 边界 框 中 有 很 多 位 置 不 准 ， 偏 移 比较 大 ， 需 要 综 
合 这 些 边界 框 得 到 一 个 最 准确 的 边界 框 ， 并 去 除 多 余 的 边界 框 。 最 简 
单 常 用 的 方法 是 非 极 大 值 抑制 ( Non-Max Suppression, NMS )， 即 保 
留置 信和 度 最 高 的 预测 边界 框 ， 去 除 剩 下 的 与 该 边界 框 类 别 相同 且 重合 
度 比较 高 的 其 他 边界 框 。 


下 面 举例 具体 说 明 非 极 大 值 抑制 算法 。 假 设 网 络 输 出 7x7 边界 
框 ， 那 么 对 所 有 49 个 边界 框 计算 置信 度 p=po xpc。 首 先 去 除 置信 度 
NFEE (如 0.6 ) 的 边界 框 ， 置 信 度 小 于 阔 值 说 明 存 在 对 象 的 可 能 性 
很 低 ， 基 本 是 背景 。 然 后 对 剩 下 的 边界 框 ， 取 置信 和 度 最 大 的 作为 对 象 
预测 输出 ， 表 明 检 测 到 一 个 对 象 。 接 着 去 除 所 有 与 该 边界 框 类 别 相 同 
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且 重 合 度 大 于 阐 值 (如 0.5 ) 的 边界 框 。 如 果 还 有 剩 下 的 边界 框 则 继续 
上 面 操作 ， 取 最 大 置信 度 的 边界 框 作 为 对 象 预测 和 输出， 去除 其 他 类 别 
相同 的 相交 边界 框 ， 直 到 没有 边界 框 剩 下 。 其 核心 思想 很 简单 ， 以 概 
率 最 高 的 预测 作为 对 象 “ 真 身 ”和 输出， 去除 “ 真 身 ”产生 的 其 他 概率 
更 低 的 “ 假 身 ”， 然 后 依次 检测 其 他 对 象 。 这 里 有 一 个 核心 假设 是 “ 假 
T MAP ERR, E MBA M AP ESERE W 
ARABEKCT BRI, MANEA- DR ERN, ARER ARE 
性 能 影响 很 大 ， 如 果 取 得 大 , 则 会 留 下 大 量 “ 假 身 "; 如 果 取 得 小 , 则 
会 去 除 大 量 “ 真 映 ”， 特 别 是 在 对 象 重合 的 时 候 。 


loU = Intersecbon Union 


12.5 交 并 比 (IoU ) 


衡量 两 个 边界 框 的 重合 度 采用 交 并 比 〈Intersection over Union, 
IoU )， 即 两 个 边界 框 的 交集 面积 与 并 集 面积 之 比 ，IoU 越 大 ,说 明 两 
个 边界 框 越 重合 。 例 如 IoU=1, 表示 两 个 边界 框 完全 重合 且 形 状 一 致 ， 
IoU=0 时 ， 两 个 边界 框 完 全 不 重合 。 


利用 交 并 比 可 以 衡量 检测 算法 的 性 能 ， 即 当 预 测 边界 框 与 对 象 真 
实 边 界 框 的 IoU 大 于 阔 值 时 ， 认 为 检测 正确 ， 靖 值 越 大 要 求 越 严格 ， 
一 般 取 0.5。 
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12.4 锚 点 框 Anchor Box 


上 述 检测 算法 有 个 缺点 ， 一 个 网 格 只 能 检测 一 个 对 象 ， 因 为 只 输 
出 了 一 个 向 量 o8。 现 实 中 经 常 出 现 2 个 对 象 重奏 的 情况 ， 它 们 边界 框 
中 心 会 落 入 同一 网 格 ， 所 以 必须 有 手段 处 理 这 种 情况 ， 即 要 求 每 个 网 
格 能 检测 多 个 对 象 , 输出 多 个 向 量 o8 ,这些 向 量 如 何 与 对 象 匹配 呢 ? 
采用 形状 匹配 法 。 


图 12.6 每 个 网 格 有 3 个 锚 点 框 


具体 方法 是 采用 销 点 框 (Anchor Box) 技术 。 假 设 每 个 网 格 输出 
3 个 向 量 obp， 每 个 向 量 ob 对 应 一 个 锚 点 框 即 水 平 矩 形 框 ，3 个 锚 点 框 
的 高 宽 比 和 大 小 各 不 相同 , 这 些 锚 点 框 都 位 于 网 格 内 ,形状 和 大 小 都 是 
事先 设计 好 的 。 


lim. 


图 像 中 如 有 2 个 对 象 落 入 同一 网 格 ， 如 何 制作 标签 呢 ? 计算 对 象 
边界 框 与 3 个 锚 点 框 的 IU, WRAK IoU T fei (如 0.5 )， 则 对 
象 与 最 大 IoU 的 销 点 框 匹配 ， 和 否则 匹配 失败 。 如 果 销 点 框 与 某 个 对 象 
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的 IoU 大 于 冰 值 ， 但 没有 与 对 象 匹 配 ， 则 忽略 该 锚 点 框 的 损失 。 剩 下 
的 锚 点 框 向 量 ob 中 ， 元 素 po 都 等 于 0。 如 图 12.6 所 示 ， 蓝 色 对 象 和 
白色 对 象 都 落 入 第 4 行 第 5 列 网 格 ， 每 个 网 格 有 3 个 错 点 框 ， 一 个 正 
方形 ， 两 个 矩形 。 水 平 锚 点 框 与 蓝 色 对 象 最 匹配 ， 坚 直 锚 点 框 与 白色 
对 象 最 匹配 ， 且 它们 IoU 均 大 于 阐 值 ， 故 计算 其 损失 。 中 间 正 方形 锚 
点 框 与 白色 对 象 IoU 大 于 0.5, 但 没有 与 其 匹配 , 所 以 忽略 该 锚 点 框 损 
失 。 注 意 对 象 与 某 个 销 点 框 最 匹配 ， 其 IoU 不 一 定 大 ， 有 可 能 很 低 ， 
对 于 这 种 情况 ， 说 明 对 象 和 锚 点 框 形状 大 小 差别 很 大 ， 系 统 很 难 检测 
到 这 种 对 象 。 故 对 于 与 对 象 最 匹配 的 锚 点 框 ， 如 果 IoU FRE, 
锚 点 框 还 是 要 作为 负 锚 点 框 计算 损失 ; 只 有 大 于 阔 值 ， 该 锚 点 框 才能 
作为 正 锚 点 框 计算 损失 。 需 要 特别 注意 的 是 ， 计 算 锚 点 框 与 对 象 边 界 
框 的 IOU 时 ， 锚 点 框 要 对 章 边界 框 ， 即 移动 锚 点 框 使 其 中 心 与 边界 杠 
中 心 重 合 。 这 种 方法 的 思想 是 锚 点 框 只 负责 检测 其 对 应 位 置 处 特定 形 
状 大 小 〈 锚 点 框 的 形状 大 小 ) 的 对 象 。 


锚 点 框 数量 一 般 是 3 到 10 个 , 手工 指定 它们 形状 大 小 , 尽 可 能 二 
对 象 的 形状 大 小 一 致 ， 比 如 行人 对 象 设计 瘦 高 的 锚 点 框 ， 汽 车 尾部 可 
设计 正方 形 的 锚 点 框 ， 汽 车 侧面 可 设计 相对 细 长 的 锚 点 框 。 还 可 采用 
k 均值 算法 自动 聚 类 出 锚 点 框 形状 ， 即 对 所 有 对 象 的 边界 框 进 行 聚 类 ， 
取 聚 类 中 心 作为 锚 点 框 ， 两 个 边界 框 的 距离 度量 需 采 用 1-IoU。 


锚 点 框 技术 大 大 增加 了 输出 向 量 ob 的 数量 ， 能 检测 到 更 多 对 象 ， 
特别 是 密集 的 部 分 重 释 的 对 象 ， 因 此 显著 提高 了 查 全 率 。 当 对 象 与 锚 
点 框 的 IOU 接近 1 时 ， 对象 的 检 出 率 高 且 边 界 框 精度 高 ， 但 IoU 比较 
小 时 ， 对 象 难以 检测 出 且 边 界 框 不 准确 ， 所 以 锚 点 框 技术 难以 应 付 对 
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象形 状 大 小 差别 很 大 的 情况 。 


由 于 卷 积 网 络 只 能 输出 3D 特征 图 ， 所 以 这 些 向 量 按 固定 顺序 拼 
接 成 一 个 超级 向 量 , 网 络 输 出 为 7x7x24(24=8 x 3), 预测 新 样本 时 ， 
也 是 采用 非 极 大 值 抑制 ， 流 程 不 变 。 


虽然 销 点 框 技术 能 处 理 多 个 对 象 落 入 同一 网 格 ， 但 当 对 象 数量 大 
于 锚 点 框 数量 时 , 算法 不 能 处 理 ; 或 者 2 个 对 象 与 同一 个 锚 点 框 匹配 ， 
也 处 理 不 好 。 不 过 这 种 情况 很 少 ， 对 性 能 影响 不 大 ， 但 需要 有 手段 处 


理 这 些 情 况 。 


12.5 ”边界 框 参 数 


12.7 边界 框 参数 ( tx, ty, th, tw ) 计算 


边界 框 参 数 (bx, by, bh, bw ) 如 果 按照 第 12.1 节 介 绍 的 方法 计算 ， 
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虽然 都 在 0 到 1 范围 内 ， 但 变化 会 很 大 。 比 如 对 于 大 对 象 bh 可 能 是 
0.8， 小 对 象 可 能 是 0.1,， 这 会 导致 平方 损失 函数 对 小 对 象 预测 不 准确 。 
以 bh 为 例 ， 因 为 平方 损失 为 (bh bh. hat), 其 中 bh 是 标签 值 ,bh_hat 
是 预测 值 。 当 bh 为 0.8 时 ，ph_hat 为 0.7， 则 损失 为 0.01， 预 测 相 对 
误差 为 0.1/0.8; 当 bh 为 0.1 时 ， 如 果 预 测 相对 误差 保持 不 变 ， 则 预测 
可 为 0.2, 但 此 时 相对 误差 为 0.1/0.1， 十 分 巨大 。 为 了 克服 这 个 缺点 ， 
采用 sigmoid 和 指数 函数 让 参数 接近 0。 


首先 建立 图 像 坐标 系 ， 网 格 边 长 为 单位 长 度 。 训 练 样本 中 ， 对 象 
边界 框 中 心 位 于 第 2 行 第 2 列 的 网 格 内 , 则 位 置 基本 偏 移 Cx=1, Cy=1， 
对 象 中 心 相对 于 该 网 格 左上 角 的 偏 移 量 为 o(1x) 和 oy), HF o 是 
sigmoid 函数 ， 因 为 px 和 by 是 已 知 的 ， 所 以 可 求 得 tx 和 ty。 因 为 边界 
框 中 心 一 般 位 于 网 格 中 心 ， 故 oO ol(ty) 约 等 于 0.5， BTE tx IL ty £5 
为 0。 同 理 对 于 bh 和 bw, 根据 匹配 的 销 点 框 尺 寸 ph 和 pw, 可 计算 出 
th 和 fw。 因为 边界 框 与 匹配 的 锚 点 框 IoU 比较 大 ， 故 尺寸 相当 ， 所 以 
th 和 tw 约 为 0。 这 样 边界 框 参 数 由 ( bx, by, bh, bw ) 转化 为 (tx, ty, th, 
tw )， 且 新 参数 约 等 于 0， 与 对 象 大 小 位 置 无 关 ， 有 利于 学 习 。 新 参数 
(tx, ty, th, tw ) 如 果 还 采用 L2 损失 ， 由 于 部 分 对 象 位 置 可 能 偏离 网 格 
中 心 较 大 ， 导 致 x, ty 绝对 值 很 大 ; 部 分 对 象形 状 可 能 与 错 点 框 的 形 
状 差别 很 大 ， 导 致 加 ，mw 绝对 值 很 大 。 大 参数 (tx, ty, th, tw) 会 导致 
L2 损失 很 大 ， 从 而 很 难 训练 。 可 以 采用 平滑 L1 范 数 损失 ， 当 参数 很 
大 时 ， 损 失 为 线性 增长 ， 增 长 比较 缓慢 ; 而 L2 范 数 是 二 次 增长 ， 增 
长 很 快 。 平 滑 L1 范 数 损失 公式 如 下 : 


p 
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2 P 
smoothL1 (x)= 0.5x if |x|<1 
|Ix|- 05 otherwise (12.1) 


预测 新 样本 时 ， 网 络 输出 向 量 ob 输出 边界 框 参数 (tx, ty, th, tw ), 
根据 向 量 ob 的 位 置 ， 可 得 到 基本 偏 移 Cx 和 Cy 的 值 ; 根据 向 量 ob UC 
配 的 锚 点 框 尺 寸 , 可 得 到 ph 和 pw 的 值 ; 然后 根据 公式 可 得 到 (bx, by, 
bh, bw ) 参数 。 


12.6 ”特征 金字 塔 网 络 FPN 


卷 积 网 络 有 个 特点 ， 就 是 网 络 项 层 提取 的 特征 富有 语义 信息 ， 底 
层 提 取 的 特征 位 置信 息 丰 富 。 如 果 检 测 网 络 只 输出 顶层 信息 ， 则 对 象 
位 置 不 准 。 能 不 能 结合 底层 位 置信 息 ， 来 提高 位 置 准确 度 ? 如 果 只 是 
简单 地 输出 底层 信息 ， 由 于 缺乏 语义 信息 ， 容 易 导 致 输出 虚假 对 象 。 
需要 结合 顶层 的 语义 信息 和 底层 的 位 置信 息 来 提高 检测 效果 ，FPN 
( Feature Pyramid Networks ) 特征 金字 塔 网 络 就 是 对 这 种 思想 的 一 种 很 
好 实现 。 


基础 网 络 是 训练 ImageNet 得 到 的 预 训 练 模型 ( 如 ResNet ) 去 掉 
顶层 的 全 连接 层 和 平均 池 化 层 。 基 础 网 络 一 般 都 是 分 阶段 的 ， 每 个 阶 
段 都 是 连续 几 个 卷 积 层 ， 这 些 卷 积 层 的 空间 分 辨 率 大 小 一 致 ， 一 般 后 
一 阶段 的 分 辨 率 是 前 一 阶段 的 一 半 。 阶 段 之 间 采 用 步 长 为 2 的 池 化 层 
或 卷 积 层 进行 下 采样 。 取 每 个 阶段 最 后 的 卷 积 层 作 为 FPN 的 特征 层 ， 
对 这 些 特征 层 进行 融合 ， 利 用 融合 后 的 特征 进行 对 象 检 测 。 
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š (predict) Nearest Neighbor 


/.— [predict] S ew Is 
FAA predict] 1 | 2 [1111212 
— 3 4 s|s|[4|4 
3|31|4]|4 

Input: 2x 2 Output: 4 x 4 


图 12.8 FPN 特征 金字 塔 网 络 及 最 近邻 上 采样 


假设 融合 3 个 尺度 的 特征 ， 基 础 网 络 最 后 3 个 阶段 的 最 后 的 卷 积 
层 分 别 为 13 x 13 x 1024，26 x 26 x 512，52 x 52 x 256。 每 个 网 格 输出 
B=3 NAVE, A C=20 类 对 象 。 


首先 对 顶层 13 x 13 x 1024 特征 图 进行 1 x 1 卷 积 , 得 到 13 x 13 x 
256 特征 图 s1, 然后 预测 子 网 络 进 行 预测 。 这样 完成 了 该 尺度 的 预测 ， 
主要 用 于 检测 大 对 象 。 


然后 对 中 间 层 26 x 26 x 512 特征 图 进行 1 x 1 卷 积 ， 得 到 26 x 26 
x256 特征 图 s2_， 对 特征 图 sl 进行 上 采样 得 到 26 x 26 x 256 特征 图 
sl, sl AI 8s2_ 两 个 特征 图 进行 逐 元 素 相 加 ， 得 到 特征 图 s2, ， 然 后 预 
测 子 网 络 进行 预测 。 这 样 就 完成 了 该 尺度 的 预测 ， 主 要 用 于 检测 中 等 
对 象 。 


同 理 ， 对 低层 52 x 52 x 256 特征 图 进行 1 x 1 卷 积 ， 得 到 52x 52 
x 256 特征 图 s3_， 对 特征 图 s2 进行 上 采样 得 到 52 x 52 x 256 特征 图 
s2_，s2_ 和 s3_ 两 个 特征 图 进行 相 加 得 到 特征 图 s3， 然 后 预测 子 网 络 
进行 预测 。 这 样 就 完成 了 该 尺度 的 预测 ， 主 要 用 于 检测 小 对 象 。 
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这 里 面 有 3 种 路 径 , 基础 网 络 从 52x52 x 256 层 到 13 x 13 x 1024 
HMA FEE (Bottom-up )， 用 于 提取 特征 ; FPN 从 13 x13 x256 
到 52 x 52 x 256 为 从 上 至 下 路 径 ( Top-down ), 用 于 把 顶层 语义 信息 引 
人 底层 ; 基础 网 络 到 FPN 即 1 x 1 卷 积 为 横向 路 径 ( Skip-connect ), 用 


于 特征 抽象 。 横 向 路 径 必须 有 卷 积 ， 不 能 
也 可 以 采用 3 x 3 卷 积 。 


DE, FPN 采用 1 x 1 卷 积 ， 


其 中 特征 图 s1, s2 和 s3 的 深度 必须 相等 ( 常用 256 )。 对 特征 图 
进行 上 采样 可 采用 最 简单 的 最 近邻 ( Nearest Neighbor ) 方法 ， 即 把 每 
个 元 素 复 制 4 份 ,也 可 以 采用 复杂 的 转 置 卷 积 ( Transpose Convolution )。 
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图 12.9 FPN 检测 网 络 


3 个 尺度 的 预测 子 网 络 结构 相同 ， 且 权重 共享 ， 但 类 别 和 边界 框 
采用 2 个 网 络 分 开 检测 。 对 融合 得 到 的 WX H x 256 特征 图 进行 类 别 检 
测 时 ， 先 进行 4 次 连续 3 x 3 卷 积 ， 每 个 卷 积 后 跟 ReLU 激活 ， 不 改变 

寺 征 图 的 深度 。 最 后 进行 3 x 3 卷 积 ,不 用 激活 ,输出 W x HEX [0108], 


预测 是 否 存 在 对 象 和 对 象 类 别 。 
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对 融合 得 到 的 W x H x 256 特征 图 进行 边界 框 检测 时 ,也 是 先进 行 
4 次 连续 3 x 3 卷 积 , 每 个 卷 积 后 跟 ReLU 激活 , 不 改变 特征 图 的 深度 
最 后 进行 3 x 3 卷 积 , 不 用 激活 , 输出 WX 五 x [AB], 预测 边界 框 参数 。 
注意 类 别 和 边界 框 2 个 子 网 络 虽然 结构 相同 ， 但 参数 不 同 。 采 用 2 个 
网 络 是 因为 类 别 和 边界 框 任务 差别 很 大 ， 用 一 套 参数 效果 较 差 。 


预测 子 网 络 也 可 以 采用 更 简单 的 结构 , 如 只 有 1 个 3x 3354, 以 
提高 检测 速度 。 甚 至 类 别 和 边界 框 2 个子 网 络 合 并 为 1 个 网 络 。 


实践 中 一 般 融 合 3 个 尺度 的 特征 ， 尺 寸 分 别 是 输入 尺寸 的 1/8, 
1/16、1/32， 为 了 进一步 提高 大 对 象 检测 性 能 ， 还 可 融合 尺度 为 1/64 , 
1/128 的 特征 。FPN 能 极 大 提高 目标 检测 网 络 性 能 ， 几 乎 成 为 标 配 。 


每 个 尺度 采用 3 个 锚 点 框 共 9 个 锚 点 框 ， 对 于 COCO 数据 集 ， 这 
些 锚 点 框 为 10 x 13), (16x30), (33x23); (30x61), (62x45), (59 


X119); (116x90), (156x198), (373x326). 


12.7 YOLO 算法 


把 上 面 的 所 有 组 件 组 合 就 是 YOLO (You Only Look Once ) 算法 。 
首先 把 图 像 分 割 成 $xS 网 格 ， 每 个 网 格 输出 B 个 锚 点 框 ， 对 象 有 C 
个 类 别 ， 则 网 络 输出 为 Sx 8Sx [(1+4+C)B]， 网 络 结构 采用 全 卷 积 层 
FPN 网 络 融合 3 个 尺度 的 特征 图 提高 小 对 象 的 检测 性 能 。 


制作 训练 集 样本 时 ， 根 据 对 象 边界 框 中 心 位 置 和 形状 ， 找 到 匹配 
的 锚 点 框 并 进行 参数 转化 ,忽略 与 对 象 IoU 较 大 的 但 未 匹配 的 锚 点 框 ， 
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A 


I 下 的 大 量 未 匹配 的 锚 点 框 po=0, 其 他 4+C 个 值 不 需 指定 。 损失 函数 
是 所 有 向 量 ob 损失 之 和 , 每 个 向 量 ob 的 损失 是 3 部 分 损失 的 加 权 和 。 
预测 新 样本 时 ， 先 去 除 置 信 度 低 的 锚 点 框 ， 然 后 进行 非 极 大 值 抑 制 获 
得 预测 对 象 。 


一 些 典 型 超 参数 如 下 : 输入 图 像 尺寸 为 416x416 或 208 x208, S 
取 7 或 13, B 取 3 或 5。 


为 目标 检测 的 数据 集 不 够 大 ,所 以 采用 迁移 学 习 进 行 网 络 训练 。 
对 于 YOLO v2 先 在 ImageNet 上 训练 分 类 网 络 ， 分 类 网 络 是 
Darknet-19, 采用 平均 池 化 层 输出 1000 维 分 值 向 量 。 进行 多 尺度 训练 ， 
先进 行 224 x 224 尺寸 160 轮 (epoch ) 训练 ， 然 后 进行 448 x 448 尺度 
训练 10 轮 ,输入 448 x 448 时 , DarkNet-19 达到 了 top-1 准确 率 76.5%, 
top-5 准确 率 93.396, DarkNet-19 由 19 个 卷 积 层 和 5 个 池 化 层 组 成 , 类 
似 VGG 结构 ， 大 量 采用 1 x 1 卷 积 ， 引 入 BN 用 于 稳定 训练 ， 加 快 收 
全 ,同时 防止 模型 过 拟 合 。 


训练 检测 网 络 时 ， 输 入 是 416 x 416， 输 出 是 13 x 13 x 125。 模 型 
去 掉 分 类 网 络 的 平均 池 化 层 及 最 后 1 个 卷 积 层 ， 取 而 代 之 的 是 3 个 3 
x3 x 1024 的 卷 积 层 ， 并 且 每 个 新 增 的 卷 积 层 后 面 接 1 x 1 x 125 的 卷 
积 层 ， 训 练 160 轮 。 输 入 为 416x416 时 ， 模 型 在 COCO 数据 集 获得 
了 44.0% 的 mAP-50 性 能 ,在 Geforce GTX Titan X 检 测速 率 达 到 67FPS。 


YOLO v3 模型 是 DarkNet-53， 由 53 个 卷 积 层 组 成 ， 没 有 池 化 层 ， 
引入 ResNet 结构 。 采 用 FPN 结构 极 大 提高 了 性 能 。 输 入 为 416 x 416 
时 ,模型 在 COCO 数据 集 获 得 了 55.3% 的 mAP-50 性 能 ,在 Geforce GTX 
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Titan X 检测 速度 是 29ms/ 张 。 


上 上面 介 绍 的 目标 检测 方法 是 端 到 端 学 习 方法 ， 称 为 一 阶段 检测 方 
法 。 还 有 一 种 所 谓 二 阶段 检测 方法 ,以 R-CNN 开端 ,以 Faster R-CNN 
和 Mask R-CNN 为 代表 , 该 类 方法 需要 先 产 生 候 选区 域 , 再 进行 分 类 ， 
而 YOLO 方法 不 需要 产生 候选 区 域 ， 直 接 得 到 结果 。 曾 经 普遍 认为 ， 
二 阶段 检测 方法 精度 高 ， 速 度 慢 ， 一 阶段 检测 方法 精度 低 ， 速 度 快 。 
但 目前 一 些 一 阶段 检测 方法 精度 达到 甚至 超过 二 阶段 检测 方法 ， 二 阶 
段 检测 方法 速度 也 变 得 很 快 ， 两 种 方法 之 间 差 别 越 来 越 小 。 但 长 久 来 
看 ， 可 能 一 阶段 检测 方法 更 有 前 途 。 


虽然 目标 检测 算法 取得 了 不 错 性 能 ， 但 与 人 类 水 平 相 比 ， 差 距 很 
大 ， 而 分 类 任务 已 经 接近 人 类 水 平 了 ， 这 说 明 目 标 检测 任务 远 难 于 分 
类 任务 。 这 是 因为 目标 分 类 任务 中 ， 图 像 只 有 一 个 大 对 象 且 对 象 位 置 
基本 居中 ， 而 检测 任务 中 ， 对 象 的 数目 、 大 小 和 位 置 均 不 确定 ， 而 且 
差别 很 大 ， 加 上 对 象 有 重 公 遮挡 ， 针 对 这 些 难 点 ,发展 了 很 多 技术 ， 
下 面 介 绍 一 些 代表 技术 。 
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12.8 软 非 极 大 值 抑 制 Soft-NMS 


12.10 两 个 重 琶 边界 框 


NMS 方法 中 , 如 果 两 个 边界 框 的 IoU ACT BRL, 则 置信 度 低 的 边 
界 框 被 认为 是 虚假 对 象 ， 直 接 被 抛弃 。 但 实际 中 经 常 出 现 两 个 对 象 高 
EEE IoU KRFA, PCBHGTÁAKELBBOS RAER E, un 
图 12.10 中 两 匹 马 , 会 漏 检 置信 和 度 为 0.7 的 马 ， 只 检测 出 置信 和 度 0.9 的 
Hj, Soft-NMS 方法 不 直接 抛弃 置信 和 度 低 的 边界 框 , 而 是 降低 其 置信 和 度 ， 
使 之 有 机 会 再 次 被 检测 为 对 象 。 置 信和 度 被 降低 的 程度 与 其 与 最 大 置信 
度 边 界 框 的 IOU 相关 , IoU 越 大 说 明 重 三 越 大 ,， 越 有 可 能 是 同一 对 象 ， 
故 降低 程度 应 该 越 大 。 可 以 采用 高 斯 函数 来 表达 : 


s—s.e (Mb)/o ( 122 ) 


HEF s 是 边界 框 b 的 置信 和 度 ，6 是 参数 ， 常 取 0.5，M 是 最 大 置信 
度 边 界 框 。 当 IoU 为 0 时 , s RAE, 当 IoU 为 0.5 时 ,s 变 为 原来 的 0.6, 
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当 IoU 为 1 时 , s 变 为 原来 的 0.14。 这 样 没 有 重 县 的 边界 框 ， 置 信和 度 不 
受 影响 ， 重 堆 越 大 的 边界 框 受 影响 越 大 。 


Soft-NMS 算法 流程 和 NMS 几乎 一 样 。 首 先 去 除 置信 和 度 小 于 阔 值 
(如 0.5 ) 的 边界 框 ， 然 后 从 剩 下 的 边界 框 中 取 置 信 度 最 大 且 大 于 阔 值 
的 边界 框 M 作为 对 象 预测 输出 ,表明 检测 到 一 个 对 象 ,接着 采用 高 斯 
函数 来 更 新 剩 下 所 有 边界 框 的 置信 度 。 对 更 新 后 的 边界 框 继续 同样 操 
作 (〈 即 取 置 信 度 最 大 且 大 于 阔 值 的 边界 框 M 作为 对 象 预 测 输出 ， 接 着 
采用 高 斯 函数 来 更 新 剩 下 所 有 边界 框 的 置信 和 度 ), 直到 剩 下 所 有 边界 框 
的 最 大 置信 和 度 小 于 阔 值 ， 表 明 不 再 有 对 象 存在 ， 结 束 流程 。 


Sof-NMS 能 较 大 地 提高 检测 算法 性 能 ( 特别 是 预选 边界 框 很 多 的 
情况 下 ), 同时 不 改变 整个 检测 算法 框架 , 不 需 重新 训练 网 络 ， 能 很 方 
便 地 植 和 人 到 现 有 检测 算法 中 ， 且 几乎 不 影响 检测 速度 ， 因 此 被 广泛 采 
用 。 


12.9 聚焦 损失 Focal Loss 


第 11 章 讲述 类 别 不 平衡 时 已 经 简单 介绍 了 FL (Focal Loss), H 
于 FL 简单 明了 ， 效 果 很 好 ,广泛 应 用 于 类 别 不 平衡 和 检测 算法 中 ， 
因此 本 节 详 细 介 绍 它 。 类 别 不 平衡 时 ， 模 型 损失 会 被 大 类 所 主导 ， 导 
致 大 类 很 快 就 收敛 ， 损 失 很 低 ， 但 小 类 不 能 有 效 学 习 ， 损 失 很 大 ， 最 
终 模 型 不 能 对 小 类 进行 正确 分 类 。 如 果 能 降低 大 类 损失 ， 让 模型 损失 
聚焦 于 小 类 ， 则 能 提高 小 类 学 习 效果 。 这 里 的 关键 是 ， 大 类 学 习 快 ， 


概率 很 快 接近 1， 如 果 能 减 小 概率 接近 1 的 损失 ， 则 就 能 抑制 大 类 。 


第 12 章 ”目标 检测 | 285 


所 以 根据 这 点 ， 提 出 了 FL， 公式 如 下 : 


FL(p)--(1- p)'log(p) (155) 


其 中 六 是 样本 的 概率 ， 7 是 大 于 0 的 参数 ， 通 常 取 2， 7 为 0 时 就 是 
传统 损失 。 


5; z 
| CE(p:) = — log(p:) mnes 
4! FL(p:) = -(1 — p)! log(p:) —7=1 
—^4-2 
al i 
2 
ke] 
2+ 
well-classified 
examples 
1| gei 


0 0.2 0.4 0.6 0.8 1 
probability of ground truth class 


图 12.11 FL 图 像 


当 概率 接近 0.6 时 ， 表 明 样 本 被 正确 分 类 ，FL 相对 传统 损失 ， 被 
严重 挤 压 ， 变 得 很 小 ; 概率 接近 0.2 时 ， 表 明 样本 错误 分 类 ，FL 相对 
传统 损失 ， 挤 压 轻 微 ， 变 化 不 大 。 故 FL 能 自动 聚焦 于 难 样本 ， 让 网 
络 重点 学 习 难 样本 。 


cumulative normalized loss 


o 
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cumulative normalized loss 


1 0 


4 8 
fraction of background examples 


12.12 FL 聚焦 于 难 样本 


2 4 6 8 
fraction of foreground examples 


目标 检测 网 络 中 ， 大 量 的 锚 点 框 没有 对 象 ， 只 有 极 少 的 锚 点 框 有 
对 象 ， 所 以 是 典型 的 类 别 不 平衡 问题 。 传 统 的 方法 采用 在 线 难 样本 控 
气 技 术 (Online Hard Example Mining，OHEMD) 来 聚焦 于 难 样本 ， 但 是 
这 种 方法 完全 抛弃 易 样本 ， 而 FL 只 是 降低 易 样 本 的 损失 , 因此 FL 效 
果 更 好 。 实 验 结果 如 图 12.12 所 示 ， 显 示 的 是 累计 样本 损失 ， 横 坐标 
是 按 样本 损失 从 小 到 大 排序 , 纵 坐 标 是 累计 损失 。 左边 是 对 象 损失 图 , 
FL 中 20% 的 样本 〈 横 坐标 从 0.8 到 1 ) 损失 占 总 损失 的 60% ( 纵 坐 标 
从 0.4 到 1), 传统 的 也 占 到 50% 左 右 ， 可 见 FL 和 传统 损失 图 很 接近 。 
右边 是 背景 损失 图 ，FL 中 不 到 1 多 的 难 样本 ( 横 坐 标 1 附近 ) 的 损失 
占 总 损失 的 PAE 纵 坐 标 从 0 到 1 )， 可 见 FL 和 传统 损失 图 差别 
很 大 。EFL 能 自动 聚焦 于 背景 (大 类 ) 中 的 难 样本 ， 易 样本 的 损失 几乎 
为 0， 对 于 对 象 (小 类 ) 影响 很 小 。FL 只 需 简 单 修改 损失 函数 ， 而 且 
对 参数 y 不 敏感 ， 十 分 容易 推广 。 


12.10 基础 网 络 Backbone 


目标 检测 基础 网 络 大 多 采用 ImageNet 分 类 预 训 练 网 络 ， 如 
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ResNet, 但 分 类 任务 和 检测 任务 差别 很 大 。 分 类 任务 不 需要 位 置信 息 ， 
可 以 对 输入 图 像 进行 大 比例 的 下 采样 ， 如 常用 的 都 是 32 x 的 下 采样 ， 
把 输入 224 x 224 的 图 像 下 采样 为 7x7 (224/7=32 )。 大 的 下 采样 比例 
会 丢失 对 象 位 置信 息 ， 导 致 大 对 象 的 边界 框 不 确 、 小 对 象 可 能 检测 不 
到 , 影响 性 能 , 所 以 检测 网 络 的 下 采样 比例 不 能 过 大 , 可 以 采用 16 x 。 
分 类 网 络 一 般 分 5 个 阶段 ， 每 个 阶段 由 多 个 连续 卷 积 组 成 ， 阶 段 之 间 
由 步 长 为 2 的 池 化 层 或 卷 积 层 连 接 ， 进 行 2x 的 下 采样 。 检 测 网 络 为 
了 能 更 好 的 检测 大 对 象 ， 需 要 更 多 的 阶段 ， 如 6 个 阶段 。 根 据 这 些 原 
则 , 设计 了 DetNet， 网 络 共 6 个 阶段 (第 1 个 阶段 2x 没 有 画 出 ) 最 
后 2 个 阶段 不 进行 下 采样 ,保持 16 x 的 尺度 ， 有 利于 网 络 保留 位 置信 
息 。 由 于 最 后 2 个 阶段 没有 下 采样 ， 如 果 采 用 传统 3 x 3 卷 积 ， 网 络 的 
计算 量 会 增加 ， 神 经 元 感受 野 会 减 小 。 采 样 扩张 卷 积 (Dilated Conv ) 
可 以 在 不 增加 计算 量 的 同时 保持 感受 野 不 变 小 ,传统 3 x 3 卷 积 核 元 素 
是 相 邻 的 ， 感 受 野 和 卷 积 核 尺寸 一 致 ;而 扩张 卷 积 元 素 有 间隔 ， 感 受 
野 大 于 卷 积 核 尺寸 。 最 常见 的 是 3 x 3 扩张 卷 积 ， 元 素 间 隔 为 1， 这 样 
其 等 效 感受 野 为 7x7， 相 当 于 3 个 连续 的 3 x 3 卷 积 核 的 感受 野 ， 但 
参数 量 和 计算 量 只 与 1 个 3x3 卷 积 核 相 同 。 


图 12.13 分 类 和 检测 的 基础 网 络 
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12.143 x3 扩张 卷 积 


DetNet 网 络 的 实现 采用 了 ResNet 网 络 的 瓶颈 ( Bottleneck ) 结构 ， 
来 减 小 计算 量 和 增加 网 络 深度 .Bottleneck 结构 的 核心 思想 是 大 量 采用 
计算 高 效 的 1 x 1 卷 积 核对 特征 图 进行 深度 维特 征 变换 , 轻 量 网 络 中 也 
是 采用 相同 技术 。DetNet 网 络 前 面 阶段 和 ResNet 一 样 ， 只 是 最 后 3 
^ 16x 尺度 阶段 都 输出 256 个 特征 图 ， $83 x 3 卷 积 变 为 扩张 3x3 卷 
TA, 并 采用 FPN 进行 特征 综合 来 提高 性 能 ， 由 于 特征 图 空间 分 辨 率 相 
同 ， 故 不 需要 进行 上 采样 ， 直 接连 接 就 可 以 。 有 一 个 细节 需要 注意 ， 
ResNet 网 络 中 不 同 阶段 的 尺度 不 同 是 通过 下 采样 实现 的 ， 但 DetNet 
的 最 后 3 个 阶段 尺度 相同 ， 卷 积 层 都 由 相同 的 扩张 卷 积 的 瓶颈 连接 ， 
并 没有 明显 的 阶段 界线 。DetNet 采用 1 x 1 投影 (Projection ) 卷 积 ? 
进行 阶段 划分 ， 能 明显 提高 模型 性 能 。 
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A:Dilated bottleNeck B:Dilated bottleNeck with C:Original bottleNeck 
1x1 conv projection 


E: Feature Pyramid Structure 


图 12.15 DetNet 结构 


12.11 多 尺度 Multiple Scales 


由 于 卷 积 网 络 不 具有 尺度 不 变性 ， 所 以 检测 网 络 难以 处 理 对 象 尺 
度 差别 很 大 的 情况 ， 上 面 介绍 的 FPN 和 DetNet 本 质 上 都 是 为 了 解决 
尺度 问题 ， 采 用 多 层 特征 金字 塔 来 同时 检测 尺度 不 一 的 对 象 。 由 于 网 
络 要 同时 处 理 多 尺度 的 对 象 ， 可 能 会 导致 网 络 难以 训练 ， 效 果 有 限 。 
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下 面 做 3 个 实验 来 说 明 卷 积 网 络 不 具有 尺度 不 变性 。 实 验 1 是 ， 

用 尺度 为 224 x 224 的 图 像 作为 输入 来 训练 ImageNet 分 类 器 。 测 试 时 
采用 不 同 尺度 的 图 像 , 这 些 图 像 都 来 自 ImageNet 数据 集 , 先 通 过 下 采 
样 来 降低 尺度 ， 然 后 再 通过 上 采样 变 成 尺度 为 224 的 图 像 作为 分 类 器 
的 输入 。 结 果 表明 尺度 为 224 x 224 时 ，top-1 准确 率 为 76.8%; 尺度 
为 128 x 128 Ff, top-1 准确 率 为 67.1%; 尺度 为 96 x 96 时 ，top-l 准确 
率 为 59.7%。 由 此 可 见 ， 尺 度 越 小 ， 效 果 越 差 ， 网络 难以 同时 处 理 多 
尺度 图 像 。 


实验 2 是 ， 用 尺度 为 96 x 96 的 图 像 作为 输入 来 训练 ImageNet 分 
类 器 ,测试 时 也 用 尺度 为 96 x 96 的 图 像 ,结果 是 top-1 准确 率 为 69.2%， 
与 第 1 个 实验 的 结果 59.7% 相 比 ， 差 别 很 大 。 这 表明 要 达到 好 效果 ， 
训练 网 络 的 图 像 尺 度 要 和 测试 时 的 一 致 。 


实验 3 是 ， 首 先 用 尺度 为 224 x 224 的 图 像 作 为 输入 来 训练 
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ImageNet 分 类 器 ， 然 后 用 尺度 为 96 x 96 的 图 像 上 采样 到 224 x 224, 
对 模型 进行 微调 , 最 后 测试 时 用 尺度 为 96 x 96 的 图 像 上 采样 到 224 x 
224， 结 果 是 top-1 准确 率 为 72.196, 与 59.7% 相 比 ， 这 表明 微调 网 络 
可 以 使 网 络 适应 新 尺度 。 


SNIP ( Scale Normalization for Image Pyramids ) 根据 这 些 特点 ， 
设计 了 尺度 归 一 化 网 络 ， 核 心思 想 是 : 网 络 只 处 理 一 种 尺度 的 对 象 ， 
通过 对 图 像 进行 上 采样 检测 小 对 象 ， 进 行 下 采样 检测 大 对 象 〈 相当 于 
实验 3 微调 网 络 ), 如 图 12.16 所 示 ， 网 络 只 检测 中 间 的 人 。 对 于 前 面 
大 尺度 的 人 ， 缩 小 图 像 尺 寸 ， 使 之 变 得 和 中 间 的 人 差不多 大 ， 然 后 检 
测 。 对 于 后 面 小 尺度 的 人 ， 放 大 图 像 尺 寸 ， 使 之 变 得 和 中 间 的 人 差 不 
多 大 ， 然 后 检测 。 这 样 ， 网 络 只 需 处 理 一 种 尺度 ， 能 达到 最 好 性 能 。 


具体 实现 细节 如 下 , 假设 网 络 有 3 种 尺度 的 输入 (480, 800)、(800， 
1200) 和 (1400，2000)， 也 就 是 把 样本 图 像 改变 尺寸 (rescale ) 到 这 3 
种 尺度 。 训 练 时 ， 对 于 每 个 尺度 输入 ， 网 络 只 处 理 边界 框 大 小 位 于 一 
定 范围 内 的 对 象 ， 对 象 的 边界 框 在 范围 之 内 的 称 为 有 效 对 象 ， 在 范围 
之 外 的 称 为 无 效 对 象 。 只 有 有 效 对 象 与 锚 点 框 进行 匹配 ， 计 算 损失 ， 
如 果 锚 点 框 与 无 效 对 象 的 IoU 大 于 0.3, 则 忽略 该 错 点 框 的 损失 。 预测 
时 ，3 个 尺度 独立 进行 预测 ， 同 样 只 有 预测 边界 框 位 于 范围 内 的 才 是 
有 效 的 预测 。 然 后 3 个 尺度 改变 尺寸 到 同一 尺度 〈 预测 边界 框 也 跟着 
改变 大 小 ) 融合 为 一 个 输出 , 最 后 进行 NMS。 这 样 网 络 训练 和 预测 都 
是 处 理 同一 尺度 的 对 象 , 根据 实验 1 和 实验 2, 能 达到 很 好 效果 。SNIP 
缺点 是 预测 速度 慢 ， 因 为 要 预测 3 个 尺度 的 输入 ， 才 能 得 到 最 后 的 结 
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12.12 三叉 戟 网 络 TridentNet 


图 12.17 TridentNet 结构 


尺度 问题 是 目标 检测 的 难点 ，FPN DetNet 和 SNIP 是 解决 尺度 
问题 的 代表 方法 。FPN 采用 一 种 尺度 输入 ， 利 用 多 层 特征 金字 塔 来 检 
测 尺 度 不 一 的 对 象 。SNIP 采用 多 尺度 输入 , 每 个 尺度 下 只 检测 特定 大 
小 的 目标 。DetNet 利用 扩张 卷 积 实现 小 目标 检测 。TridentNet 综合 
这 些 方法 的 优点 ， 获 得 了 极 大 的 性 能 提升 ， 同 时 没有 增加 计算 量 和 权 
重 数量 ， 是 一 种 非常 实用 的 方法 。 


TridentNet 利用 扩张 卷 积 来 实现 不 同 尺度 目标 的 检测 。 扩 张 卷 积 
元 素 有 间隔 ， 常 见 的 有 3x3 扩张 卷 积 ， 元 素 间隔 为 1 或 2， 间隔 为 0 
就 是 传统 卷 积 。 间 隔 越 大 ， 有 效 感受 野 越 大 , 越 有 利于 大 目标 的 检测 。 
通过 一 个 实验 来 说 明 , 使 用 ResNet50 作为 基础 网 络 ， 变 最 后 一 个 
阶段 中 每 个 3x3 卷 积 的 间隔 ， 结 果 表 明 不 同 尺 度 目 标的 检测 性 能 和 间 
隔 正 相关 ， 即 有 效 感受 野 大 ， 有 利于 检测 大 目标 ; 有效 感受 野 小 ， 有 
利于 检测 小 目标 。 


为 了 检测 各 种 尺度 目标 ,一 个 直接 的 方式 就 是 使 用 多 个 并 行 分 
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x, BET ACIES I]. AH] 3 个 分 支 ，, 间隔 分 别 为 0、1 和 2 的 网 
络 结构 称 为 三 又 戟 网 络 。 具体 细节 为 ， 当 使 用 ResNet50 作为 基础 网 络 
时 , 去 掉 全 连接 层 和 第 5 阶段 的 卷 积 层 , 前 3 个 阶段 卷 积 层 保持 不 变 。 
第 4 阶段 卷 积 层 复制 3 份 ， 作 为 3 个 并 行 分 支 , 分 别 使 用 间隔 为 0、1 
和 2 的 卷 积 。 每 个 分 支 分 别 进行 预测 ， 预 测 结果 合并 后 采用 NMS 作 
为 最 后 输出 。 


3 个 分 文 的 权重 共享 可 以 进一步 提高 性 能 ， 原 因 有 两 方面 ， 一 是 
减少 了 权重 数量 以 及 潜在 的 过 拟 合 风险 ， 二 是 充分 利用 了 每 个 样本 ， 
同样 一 套 权 重 在 不 同 间隔 下 训练 了 不 同 尺度 的 样本 。 最 后 还 可 以 借鉴 
SNIP， 每 个 分 支 只 训练 一 定 尺度 范围 内 的 样本 ,避免 极端 尺度 物体 对 
性 能 产生 影响 。 相 邻 分 支 之 间 的 尺度 可 以 有 重 辣 ， 比 如 对 于 短 边 长 度 
为 800 像 素 的 输入 图 像 ,3 个 分 支 样本 面积 的 平方 根 范 围 分 别 为 [0, 90]， 
[30, 160], [90, oc]. 


TridentNet 在 测试 阶段 需要 运行 3 个 分 支 ， 比 起 基础 网 络 需要 一 
些 额外 计算 。 为 了 不 引入 任何 额外 计算 ， 在 测试 阶段 ， 可 以 只 保留 间 
隔 为 1 的 分 支 来 近似 完整 TridentNet 的 结果 ， 性 能 下 降 很 小 。 这 里 
两 点 要 注意 : 第 一 ， 网 络 训练 时 仍 必 须 采 用 3 个 分 支 ; 第 二 ， 所 有 样 
本 在 3 个 分 支 都 训练 ， 不 能 采用 SNIP 方法 ， 因 为 最 后 如 果 只 保留 一 
支 ， 那 么 权重 最 好 在 所 有 样本 上 的 所 有 尺度 上 都 充分 训练 。 单 分 支 预 
测 方法 的 性 能 比 FPN 要 更 好 。 
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12.13 人 脸 关 键 点 定位 


图 12.18 人 脸 关键 点 ， 分 别 为 5、49、68、194 个 关键 点 


人 脸 关 键 点 定位 任务 (face landmark ) 是 定位 出 眼睛 眉毛 鼻子 嘴 
巴 和 轮廓 ， 最 常用 的 是 5. 49. 68 或 194 个 关键 点 ，5 个 关键 点 只 能 
给 出 粗略 位 置 ,49 个 关键 点 能 描绘 轮廓 , 68 个 关键 点 描绘 脸 部 外 轮廓 ， 
194 个 关键 点 可 以 近似 认为 是 线 模 型 。 人 脸 关 键 点 定位 任务 和 目标 检 
测 任务 一 样 也 是 位 置 敏 感性 任务 ， 但 难度 低 很 多 ， 因 为 人 脸 可 以 近似 
认为 是 刚体 ， 变 形 小 ,五 官位 置 大 小 基本 固定 ， 但 头 部 姿态 和 表情 会 
影响 关键 点 位 置 。 人 脸 关键 点 定位 是 很 多 人 脸 分 析 任 务 的 基础 ， 如 人 
脸 验 证 ， 表 情 分 析 和 人 脸 识别 。 


人 脸 关 键 点 定位 任务 先 用 人 脸 检 测算 法 定位 出 人 脸 的 边界 框 ， 只 
需 在 边界 框 内 定位 关键 点 ,边界 框 尺 寸 需 统一 缩放 至 固定 尺寸 (如 60 
x60 或 40x40)， 定 位 网 络 一 次 只 处 理 一 张 人 脸 。 人 脸 检 测算 法 可 以 
采用 目标 检测 算法 如 YOLO ， 由 于 只 需 检 测 人 脸 ， 故 基础 网 络 可 以 设 


计 得 很 轻 量 。 


NI 
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E Ci; 3x3 x 64 
bd CL, 8x8x48 
40 x 40 x3 18x 18x 16 


图 12.19 定位 卷 积 网 络 


假设 m 个 关键 点 坐标 为 P=1…Pm)=(CxLy71 02y00)， 在 边界 
框 坐 标 系 进行 归 一 化 ， 这 样 卷 积 网 络 只 需 对 这 2m 个 实数 进行 回归 ， 
可 以 通过 全 连接 层 实 现 。 如 图 12.19 所 示 ， 通 过 4 个 卷 积 层 和 池 化 层 
把 输入 40 x 40 x 3 转化 为 2x2 x 64， 最 后 通过 2 个 全 连接 层 输出 10 
个 实数 来 定位 5 个 关键 点 。 损失 函数 可 采用 L2 范 数 , 也 可 采用 加 权 损 
失 ， 即 用 两 眼 瞳 孔 距 离 进 行 加 权 ， 权 重 为 瞳孔 距离 平方 的 倒数 。 这 种 
方法 虽 很 简单 ， 但 效果 不 错 。 


AN FAN, 
FN N 
: FC2 


FC! FON 


12.20 微调 卷 积 网 络 TCNN 
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为 了 进一步 提高 性 能 ， 比 如 大 侧 脸 或 夸张 表情 时 定位 精度 ， 需 要 
考虑 头 部 姿态 和 表情 的 影响 。 为 此 发 展 了 很 多 方法 ,比如 辅助 任务 法 、 
迭代 校正 法 ， 这 里 介绍 一 种 简单 的 微调 法 ， 该 方法 本 质 是 对 人 脸 进行 
无 监督 聚 类 ， 然 后 对 每 个 聚 类 采用 不 同 的 权重 进行 训练 。 每 个 聚 类 代 
表 不 同 的 头 部 姿态 或 表情 ， 这 样 网 络 就 能 自 适应 的 学 习 ， 获 得 更 好 的 
效果 。 


该 方法 巧妙 处 在 于 不 是 采用 图 像 的 RGB 像素 进行 聚 类 , 而 是 采用 
预 训练 的 卷 积 网 络 ( 如 图 12.19 所 示 ) 的 倒数 第 2 个 全 连接 层 FC; 特 
征 进 行 聚 类 。 训 练 的 具体 过 程 为 ， 先 训练 图 12.19 的 网 络 ， 然 后 训练 
样本 根据 FCs 特征 进行 聚 类 ， 最 后 采用 FCs 特征 作为 输入 ， 对 每 个 聚 
类 分 别 训练 一 个 线性 回归 器 。 预 测 时 ， 先 计算 人 脸 的 FC; 特 征 并 判断 
其 聚 类 类 别 ， 然 后 采用 对 应 的 线性 回归 融 进 行 定位 。 聚 类 算法 采用 混 
合 高 斯 模型 , 聚 类 数 K=64。 训练 线性 回归 器 时 , 由 于 每 类 样本 数 很 少 ， 
为 避免 过 拟 合 ， 采 用 特殊 的 数据 增强 技术 来 扩 增 样本 。 


12.14 单个 人 体 关 键 点 定位 


图 12.21 人 体 关键 点 
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人 体 关键 点 定位 任务 是 定位 出 头 部 脖子 肩膀 手臂 腿 等 关节 位 置 ， 
是 行为 分 析 、 人 机 接口 和 人 体 动画 的 基础 。 表 面 上 看 ， 人 体 关键 点 定 
位 和 人 脸 关键 点 定位 一 样 , 但 人 体 四 肢 变形 很 大 , 可 以 认为 是 变形 体 ， 
关键 点 位 置 千差万别 ， 难 度 大 很 多 。 人 体 关 节 位 置 不 管 怎么 变化 ， 总 
受到 人 体 结构 的 约束 ， 人 体 总 姿态 的 信息 能 提高 关节 定位 精度 。 由 于 
关节 被 谈 挡 、 服 饰 的 掩盖 或 附近 其 他 人 关节 的 干扰 ， 只 通过 关节 局 部 
区 域 难以 精确 定位 关节 ， 而 人 脸 关 键 点 基本 可 以 通过 局 部 区 域 判断 ， 
这 是 两 者 的 本 质 差别 。 要 获得 人 体 总 姿态 ， 需 要 全 局 视野 ， 这 要 求 网 
络 融 合 多 尺度 信息 ， 所 以 网 络 与 前 面 介绍 的 FPN 网 络 高 度 相似 。 


具体 来 说 ， 人 体 关 键 点 定位 任务 采用 沙漏 模块 (Hourglass )， 沙 
漏 模块 包括 3 条 路 径 Bottom-up 路 径 、Top-down 路 径 和 Skip-connect 
路 径 , 这 与 FPN 网 络 一 致 , 路 径 连 接 方式 也 和 FPN 网 络 一 致 。 与 FPN 
网 络 不 同 的 是 ， 沙 漏 模 块 高 度 对 称 ，Bottom-up 路 径 和 Top-down 路 径 
完全 对 称 ， 而 FPN 的 Bottom-up 路 径 厚重 ，Top-down 和 Skip-connect 
路 径 轻 量 。 图 12.22 中 每 个 方 框 代表 相同 的 卷 积 层 ， 输 出 256 个 特征 
图 。 卷 积 层 可 以 采用 ResNet 模块 ， 即 采用 1 x 1 卷 积 降 维 输出 128 个 
特征 图 ，3 x 3 卷 积 输出 128 个 特征 图 ， 再 1 x 1 卷 积 升 维 输出 256 个 
特征 图 。 沙 漏 模块 通过 4 次 下 采样 ， 把 输入 64 x 64 缩小 为 4x4， 再 
通过 4 次 上 采样 , 把 4x4 放 大 至 原始 输入 尺寸 , 沙漏 模块 在 最 后 的 原 
始 尺度 输出 预测 结果 。 
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图 12.22 沙漏 模块 ( Hourglass ) 和 ResNet 模块 


整个 定位 网 络 为 , 输入 为 256 x 256 包含 人 体 的 图 像 , 经 过 1 个 步 
长 为 2 的 7x7 卷 积 1 个 ResNet 模 块 和 1 个 步 长 为 2 的 最 大 值 池 化 层 ， 
尺寸 缩小 为 64 x 64, 然后 通过 沙漏 模块 , 最 后 接 2 个 步 长 为 1 的 1x1 
卷 积 ， 得 到 最 终 输 出 。 网 络 最 终 输出 并 不 是 关键 点 坐标 值 ， 而 是 热点 
图 。 假 设 定位 15 个 人 体 关键 点 〈 四 肢 各 30, STE 275, 3E 1 个 )， 
则 热点 图 是 64 x 64 x 15 的 特征 图 ， 其 含义 是 每 个 64 x 64 特征 图 表示 
1 个 关键 点 的 预测 结果 ， 特 征 图 中 每 个 位 置 的 值 表 示 关 键 点 概率 ， 故 
最 大 值 位 置 为 关键 点 预测 位 置 。 所 以 网 络 的 损失 函数 就 是 预测 热点 图 
与 真实 热点 图 的 L2 范 数 ， 真 实 热点 图 是 以 关键 点 位 置 为 中 心 的 高 斯 
分 布 ， 即 关键 点 位 置 概率 为 1， 以 高 斯 曲线 向 四 周 趋 近 0， 当 方差 为 1 
个 像素 时 ，3 个 像素 之 外 的 概率 接近 0。 


图 12.23 网 络 输出 的 热点 图 ( Heatmap ) 


为 了 提高 网 络 性 能 ， 可 以 堆 受 多 个 〈2 个 到 8 个 ) 沙漏 模块 ， 充 
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分 挖掘 多 扩 度 信息 。 由 于 网 络 加 深 ， 容 易 出 现 梯度 消失 ， 沙 漏 模块 为 
此 采用 特殊 的 连接 方式 ， 使 每 个 沙漏 模块 产生 监督 信号 ， 进 行 梯度 反 
传 。 沙 漏 模块 向 后 传输 时 ， 分 成 两 路 ， 上 路 接 后 面 的 沙漏 模块 ， 下 路 
输出 热点 图 ( 小 方 框 ) 热点 图 计算 损失 进行 梯度 反 传 。 再 对 热点 图 进 
行 1x1 卷 积 , 使 输出 通道 数 和 中 间 层 相同 , 然后 两 路 相 加 , 注意 还 要 
加 上 前 面 沙漏 模块 的 输出 C 虚线 所 示 )。 如 果 只 采用 上 路 连接 , 则 没有 
中 间 监 督 信号 ， 网 络 难以 训练 ;如果 只 采用 下 路 连接 ， 则 由 于 热点 图 
的 通道 数 C15 ) 远 小 于 其 他 卷 积 层 的 通道 数 ( 256 )， 造 成 信息 瓶颈 导 
致 信息 丢失 ,网 络 性 能 下 降 。 虽然 沙漏 模块 结构 相同 , 但 是 权重 独立 ， 
各 不 相同 。 这 种 连接 方式 ， 相 当 于 后 面 的 沙漏 模块 对 前 面 模块 输出 的 
热点 图 进行 修正 ， 是 一 种 迭代 处 理 方式 ， 越 到 后 期 ， 增 益 越 不 明显 ， 

沙漏 模块 4 个 以 上 时 ， 人 性 能 提升 不 明显 。 预 测 时 采用 最 后 一 个 沙漏 模 
块 的 热点 图 。 


这 种 方法 同样 能 用 于 各 种 关键 点 定位 任务 ， 如 入 脸 关键 点 定位 。 
但 这 种 方法 只 能 对 单个 人 体 进行 关键 点 定位 ， 所 以 需要 先 检测 人 体 边 
界 框 。 


12.24 堆 二 多 个 沙漏 模块 构成 定位 网 络 
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图 12.25 沙漏 模块 连接 方式 


12.15 多 人 人 体 关键 点 定位 


多 人 人 体 关 键 点 定位 任务 有 两 种 方法 ,一 种 是 从 上 至 下 
( Top-down ) 方法 ， 先 进行 人 体检 测 ， 然 后 对 每 个 人 体 进行 单个 人 体 
关键 点 定位 。 人 体检 测算 法 可 以 采用 YOLO 算法 , 单个 人 体 关 键 点 定 
位 可 以 采用 沙漏 算法 。 这 种 方法 的 最 大 缺点 是 检测 速度 与 人 体 数量 成 
正比 ， 人 越 多 速度 越 慢 ， 在 人 体 密集 的 场景 难以 推广 。 同 时 关键 点 定 
位 精度 受 人 体检 测算 法 影响 较 大 ， 人 体 边界 框 的 轻微 偏 移 有 时 会 对 关 
键 点 位 置 产 生 很 大 影响 ， 特 别 地 ， 在 人 体 被 谈 挡 或 重 倒 时 ， 很 难 获 得 
精确 的 边界 框 。 另 一 种 是 从 下 至 上 (Bottom-up) 方法 ， 这 种 方法 不 需 
要 进行 人 体检 测 ， 而 是 先 同时 定位 所 有 人 体 关键 点 ， 然 后 对 关键 点 进 
行 匹配 连接 ， 形 成 单个 人 体 。 这 种 方法 的 最 大 优点 是 检测 速度 基本 不 
受 人 体 数量 的 影响 ， 能 应 用 于 各 种 场景 ， 包 括 人 体 密集 的 场景 。 最 大 
的 挑战 在 于 准确 定位 关键 点 ， 因 为 算法 需要 在 不 同 尺度 、 让 挡 或 重生 
等 情况 下 精确 定位 关键 点 ， 关 键 点 定位 不 准 会 导致 关键 点 匹配 错误 。 
目前 从 上 至 下 方法 精度 高 ， 速 度 慢 ; 从 下 至 上 方法 精度 低 ， 速 度 快 ， 
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长 期 来 看 ， 从 下 至 上 方法 更 有 优势 ， 本 节 介 绍 这 种 方法 。 


从 下 至 上 方法 有 两 个 核心 子 任务 :关键 点 定位 和 关键 点 匹配 连接 ， 
都 是 多 任务 学 习 问 题 。 关 键 点 定位 可 以 采用 与 单 人 人 体 关 键 点 定位 相 
同 的 方法 ， 利 用 CNN 网 络 强大 的 拟 合 能 力 ， 输 出 各 关键 点 位 置 的 热 
点 图 。 关 键 点 匹配 连接 需要 正确 连接 同一 个 人 体 的 各 个 关键 点 ， 形 成 
完整 人 体 。 由 于 人 体 相 邻 关键 点 均 由 躯干 连接 ， 如 肘 关 节 和 脑 关 节 由 
小 臂 连 接 ， 颈 关节 和 腰 关 节 由 上 吴 连 接 等 ， 要 指引 网 络 学 习 到 这 些 知 
识 ， 为 此 建立 相 邻 关 键 点 亲 和 场 (Part Affinity Fields, PAF), PAF Œ 
立 相 邻 关 键 点 之 间 的 量化 关系 。 这 两 个 子 任务 既 紧 密 联 系 又 差别 较 大 ， 
紧密 联系 是 指 子 任务 都 和 关键 点 位 置 相关 ， 差 别 较 大 是 指 关 键 点 定位 
主要 由 关键 点 附近 区 域 决 定 ， 关 键 点 匹配 连接 主要 由 相 邻 关键 点 之 间 
的 区 域 决定 。 所 以 网 络 结构 设计 上 ， 既 要 有 相同 的 主干 ， 又 要 有 较 明 
SES CS 


12.26 关键 点 热点 图 


302 ”跟着 Python 代码 学 卷 积 神经 网 络 


12.27 相 邻 关键 点 〈 左 肘 左 腕 ) 之 间 的 亲 和 场 PAF 


具体 来 说 ， 网 络 输入 为 368 x 654 x 3 图 像 ， 经 过 主干 网 络 为 
VGG-19 的 前 10 个 卷 积 层 ( 权重 初始 为 预 训练 模型 ， 然 后 进行 微调 )， 
得 到 特征 图 F， 特 征 图 F 作为 两 个 分 支 的 输入 。 输 入 图 像 经 过 3 个 池 
化 层 ， 尺 度 缩小 8 倍 ， 特 征 图 F 为 46 x 82x 512。 两 个 分 支 网 络 结构 
完全 相同 ， 都 是 3 个 连续 的 3 x 3 卷 积 接 2 个 1x1 卷 积 ， 注 意 没 有 池 
化 层 。 上 层 分 支 预测 热点 图 ， 下 层 分 支 预测 PAF。 分 支 网 络 和 沙漏 模 
块 完 全 不 同 , 分 支 网 络 没有 对 特征 图 进行 Bottom-up 和 Top-down 处 理 ， 
尺度 始终 保持 不 变 。 这 是 因为 这 两 个 子 任务 主要 由 关键 点 局 部 区 域 决 
定 ， 需 要 精确 的 位 置信 息 ， 而 不 是 特别 需要 全 局 信息 ， 所 以 不 能 降低 
特征 图 空间 分 辨 率 。 而 单个 人 体 关 键 点 定位 由 于 没有 PAF， 网 络 不 能 
提供 关键 点 之 间 的 连接 关系 ， 所 以 需要 很 强 的 全 局 信息 ， 要 降低 特征 
图 空间 分 辨 率 到 很 小 的 尺寸 如 4x4。 下面 详细 介绍 两 个 分 支 的 标签 设 
计 。 
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图 12.28 主干 和 两 个 分 支 构成 的 定位 网 络 


上 层 分 支 是 预测 热点 图 ， 所 以 标签 就 是 热点 图 ， 和 单 人 人 体 关 键 
点 定位 采用 的 热点 图 很 类 似 ， 也 是 每 种 关键 点 一 个 热点 图 ， 即 所 有 人 
的 同 种 关键 点 都 在 一 个 热点 图 内 ， 比 如 右 肩 热点 图 ， 右 腕 热点 图 。 热 
点 图 内 每 个 人 关键 点 处 形成 一 个 热点 ， 峰 值 为 1， 以 高 斯 曲线 向 四 周 
Eur 0。 热 点 图 分 支 输出 特征 图 的 通道 数 等 于 关键 点 种 类 数 。 损 失 函 
数 是 预测 热点 图 与 真实 热点 图 的 2 范 数 。 测 试 时 ,对 热点 图 采用 NMS 
算法 ， 从 而 获得 局 部 极 大 值 作为 关键 点 的 位 置 。 


下 层 分 支 是 预测 PAF， 所 以 标签 就 是 PAF。 先 说 明 两 个 概念 。 两 
个 关键 点 相 邻 , 是 指 它们 之 间 由 躯干 直 连 , 中 间 不 能 存在 其 他 关键 点 ， 
比如 右 肘 关键 点 和 右 胸 关 键 点 是 相 邻 关系 ， 而 右 肩 关键 点 和 右 胶 关键 
点 不 是 相 邻 关系 ， 因 为 中 间 有 右 肘 关键 点 。 相 邻 关键 点 方向 是 由 靠近 
典 干 的 关键 点 指向 远 端 关键 点 比如 右 肘 指向 右 腕 ， 或 上 面 关 键 点 指向 
下 面 关键 点 比如 有 颈 部 关键 点 指向 腰部 关键 点 。PAF 就 是 在 相 邻 关键 点 
之 间 建 立 单位 矢量 场 ， 矢 量 方向 为 相 邻 关键 点 方向 ， 其 他 位 置 处 矢量 
为 0， 这 样 量 化 了 相 邻 关键 点 之 间 的 关联 。 具 体 地 ， 和 关键 点 热点 图 
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一 样 ， 也 是 每 种 相 邻 关键 点 建立 一 个 PAF， 即 所 有 人 的 同 种 相 邻 关键 
点 都 在 一 个 PAF N, WANAE PAF, AAA PAF 和 有 颈 部 右 腰 
PAF 等 。 为 了 提供 更 多 更 强 的 学 习 信 号 ， 相 邻 关键 点 之 间 的 单位 矢量 
场 并 不 只 存在 两 个 关键 点 的 连 线 上 ， 而 是 在 一 个 矩形 区 域内 都 存在 矢 
量 场 , 即 考虑 了 躯干 的 宽度 ， 比 如 小 臂 的 宽度 。 当 多 人 小 臂 有 重大 时 ， 
由 于 每 个 小 臂 都 建立 了 自身 的 单位 矢量 场 ， 在 重 辣 区域 ,需要 用 平均 
矢量 场 作为 监督 信号 。 这 里 需要 注意 ，PAF 是 平面 矢量 场 ， 实 现时 需 
要 2 个 标量 场 分 别 来 表示 矢量 的 水 平和 垂直 分 量 ， 所 以 PAF 2T 3715 58g 
出 特征 图 的 通道 数 为 相 邻 关键 点 种 类 数 的 2 倍 。 损 失 函 数 是 预测 PAF 
与 真实 PAF 的 L2 范 数 。 


利用 关键 点 热点 图 和 相 邻 关键 点 PAF 进行 关键 点 匹配 连接 , 把 属 
于 每 个 人 的 关键 点 组 合 在 一 起 。 关 键 点 热点 图 只 给 出 所 有 关键 点 位 置 ， 
但 并 不 知道 哪些 关键 点 属于 同一 个 人 ， 如 何 对 关键 点 进行 组 装 形成 人 
体 ， 是 难点 所 在 。 利 用 PAF 能 极 大 地 降低 问题 难度 且 速 度 极 快 ， 同 时 
很 鲁 棒 ， 能 适应 各 种 复杂 场景 。 以 左 肘 左 腕 PAF 为 例 进行 说 明 ， 假 设 
中 有 3 个 人 ， 左 肘 和 左 腕 热点 图 分 别 检测 出 每 个 人 的 左 肘 和 左 腕 位 
置 , 这 些 位 置 对 应 到 左 肘 左 及 PAF 中 。 因 为 每 个 左 有 时 有 三 种 可 能 连接 
方式 (连接 到 所 有 的 左 腕 ) 但 只 有 一 种 连接 方式 是 正确 的 , 利用 PAF 
可 以 量化 这 些 连 接 方式 的 正确 程度 ， 利 用 贪 禁 法 很 容易 选 出 正确 的 匹 
配方 式 。 左 肘 左 腕 PAF 中 ,任意 左 肝 左 腕 对 之 间 的 矢量 场 积 分 值 可 以 
量化 连接 方式 的 正确 程度 ， 积 分 值 越 大 说 明 左 肘 左 腕 对 越 有 可 能 属于 
同一 个 人 。 计算 出 每 个 左 肝 左 腕 对 的 积分 值 ， 首 先 取 最 大 积分 值 作为 
第 1 个 匹配 的 左 肘 左 腕 对 ; 然后 将 与 已 经 匹配 的 左 肝 和 左 腕 相连 的 其 
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他 左 腕 或 左 肝 对 的 积分 值 置 为 0， 保 证 已 经 匹配 的 左 肘 或 左 腕 不 再 与 
其 他 左 腕 或 左 肝 匹配 ; 接着 取 最 大 积分 值 作为 下 一 个 匹配 的 左 肘 左 胶 
对 ,将 与 本 轮 匹 配 的 左 肝 和 左 腕 相连 的 其 他 左 腕 或 左 时 对 的 积分 值 置 
为 0。 一 直 循环 下 去 ， 直 到 所 有 左 肘 左 腕 都 匹配 。 这 样 就 完成 了 所 有 
人 的 左 肝 左 腕 的 匹配 。 以 同样 的 方式 处 理 所 有 的 PAF， 就 完成 了 人 体 
所 有 相 邻 关键 点 的 匹配 连接 ,也 就 完成 了 人 体 关键 点 组 装 。 也 可 以 采 
用 图 论 中 多 牙 利 算法 进行 左 肘 左 腕 PAF 的 匹配 , 读者 可 以 查阅 相关 资 
料 。 实 际 计算 相 邻 关键 点 矢量 场 积分 值 时 采用 求 和 法 近似 ， 即 对 相 邻 
关键 点 之 间 的 矩形 区 域 的 矢量 分 量 求 和 ， 和 作为 积分 值 。 


€ Elbow ^ — Correct Connection 
@ wrist — Wrong Connection 


12.29 相 邻 关键 点 匹配 


为 了 进一步 提高 性 能 ， 也 可 以 采用 和 单 人 关键 点 定位 任务 中 一 样 
的 策略 ， 堆 三 多 个 分 支 网 络 。 具 体 堆 释 方 式 和 沙漏 模块 有 2 点 不 同 ， 
首先 2 阶段 后 的 分 支 网 络 结构 和 1 阶段 不 同 , 采用 5 个 连续 的 7x7 卷 
积 代替 3 个 连续 的 3x3 卷 积 ; 其 次 连接 方式 采用 特征 图 堆 半 方式 
( Concatenate )， 而 不 是 逐 元 素 相 加 (Sum ) 方式 ， 具 体 是 把 上 下 两 个 
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分 支 的 预测 特征 图 和 主干 网 络 特征 图 F 堆 秋 在 一 起 ， 作 为 下 一 阶段 的 
输入 。 一般 采 用 2 到 6 个 阶段 ,第 3 个 阶段 后 增益 很 少 。 以 上 介绍 的 
算法 就 是 著名 的 OpenPose。 


Stage 1 Stage t, (t > 2) 


le Branch 1 p! 
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二 值 化 网 络 


卷 积 网 络 取 得 了 巨大 成 功 ， 广泛 应 用 于 图 像 、 语 音 和 语言 领域 ， 
但 它 巨大 的 权重 数量 〈 几 百 兆 浮 点 数 ) 和 运算 量 ( 上 千 兆 的 浮 点 数 乘 
法 ) 限制 了 其 应 用 范围 。 卷 积 网 络 主要 运行 在 GPU 上 ， 很 少 使 用 在 
CPU AI AXES CUI ARM) 上 。 在 手机 上 很 难 运行 卷 积 网 络 ， 因 
此 通常 采用 的 做 法 是 , 手机 先 把 图 像 无 线 传输 到 云端 , 云端 的 GPU 运 
行 卷 积 网 络 ， 再 把 结果 传 回 手机 。 如 果 卷 积 网 络 能 在 移动 设备 CUT 
BL) 上 运行 ， 则 会 大 大 促进 卷 积 网 络 的 普及 ， 促 进 社会 发 展 。 为 此 ， 
我 们 研发 了 多 种 技术 来 减 小 卷 积 网 络 的 权重 数量 和 运算 量 。 第 10 章 介 
绍 的 轻 量 网 络 就 是 一 种 具有 代表 性 的 技术 ， 通 过 巧妙 的 网 络 结构 ， 直 
接 减 小 权重 数量 和 运算 量 。 还 有 一 种 技术 是 通过 量化 权重 ， 来 减 小 权 
重 的 存储 空间 , 但 并 不 减 小 其 数量 ， 比 如 权重 是 浮 点 数 , 需要 32 个 比 
特 (bit); 如 果 变 为 整数 ， 只 需要 8 个 bit; 进一步 变 为 {十 1, 一 1 
仅 需 要 1 个 bit， 这 大 大 减 小 了 存储 空间 。 卷 积 网 络 的 主要 运算 是 激活 
和 权重 的 矩阵 乘法 ( 浮 点 数 乘法 ), 如 果 能 把 序 点 数 乘法 变 为 浮 点 数 加 
减法 ， 甚 至 是 逻辑 运算 ， 就 能 大 大 提高 运算 速度 、 降 低 功 耗 。 二 值 化 
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网 络 (XNOR Net ) 是 一 种 量化 技术 ， 通 过 把 权重 和 激活 量化 为 | 十 1， 
一 1 1， 减 小 了 存储 空间 (原来 的 1/15 )、 提 高 了 运算 速度 (原来 的 10 
fii ) 和 减 小 了 功 耗 〈 原来 的 1/30 )。 


13.1 权重 二 值 化 


最 简单 的 二 值 化 网 络 是 只 对 权重 进行 二 值 化 ， 即 权重 只 取 十 1 或 
一 1。 训 练 网 络 时 ， 先 计算 权重 的 梯度 ， 然 后 进行 权重 更 新 ， 而 为 了 使 
训练 过 程 稳定 收敛 ， 权 重 每 次 的 更 新 量 很 小 。 这 样 一 来 ， 如 果 训 练 过 
程 中 权重 只 取 十 1 或 一 1， 由 于 更 新 量 很 小 ， 很 难 使 权重 从 十 1 改变 为 
一 1， 权 重 值 在 训练 过 程 中 几乎 不 会 发 生变 化 ， 不 能 进行 学 习 。 为 此 ， 
在 训练 过 程 中 需要 引入 浮 点 数 权重 ， 利 用 浮 点 数 权重 进行 更 新 。 二 值 
化 权重 是 对 浮 点 数 权重 进行 二 值 化 得 到 的 ， 最 简单 也 最 常用 的 二 值 化 
函数 是 符号 函数 sign， 即 浮 点 数 权重 w 大 于 等 于 0 时 ， 二 值 化 权重 
ws 为 十 1， 否 则 为 一 1。 


w,—sign(w,) ( 13.1) 


网 络 训练 好 后 ， 只 需 保 存 二 值 化 权重 w, TARE wA 
存 。 进 行 预测 时 ， 网 络 前 向 运算 为 : 


a,—xw,, hl= f(a), 
ah, wy, h;-7f(aj), (132) 
Wy,» h,=, 


a,=h 


n-—l 


第 13 章 二 值 化 网 络 | 309 


其 中 x 是 输入 , hh 是 网 络 预测 值 ，f() 是 非 线 性 激活 函数 。 预 测 过 
程 和 常规 网 络 一 样 , 只 是 权重 采用 二 值 化 权重 wo 由 于 权重 为 | 十 1, 一 


1}, EERI aihi-Wp AE AER a OUR S , 能 降低 功 耗 和 提高 速度 。 


网 络 训练 时 ,由 于 只 能 对 浮 点 数 权重 w 进 行 更 新 , 故 前 向 运算 为 : 


w,7 sign(w,), a= xw,, h= f (a,), 
w,7 sign(w,), a;= h; wy, h,= f (a,) 


Win” sign(w,,), a,— hy aW, h,= a, 


c= L(h,, y,) 


yo 是 x 对 应 标签 , Lho, yo 是 损失 函数 。 移 对 浮 点 数 权重 w 进行 二 
值 化， 得 到 二 值 化 权重 w， 然 后 进行 矩阵 乘法 。 难 点 是 计算 损失 对 
w; 的 梯度 ,根据 链 式 法 则 得 到 损失 c 对 权重 wi 的 梯度 ,损失 c 对 权重 
w; 的 梯度 为 : 


Tu 


ðc gc Osign(w,) 
ôw, Ow, ôw, 


(13.4) 

需要 计算 符号 函数 的 偏 导数 ， 由 于 符号 函数 的 偏 导 数 几 乎 处 处 为 
0， 导 致 损失 c 对 权重 ww 的 梯度 也 几乎 处 处 为 0， 因 此 权重 w, 难 以 更 
新 ,为 了 解决 此 问题 ,引入 直通 估计 ( Straight-Through Estimator, STE ), 
把 符号 函数 的 偏 导 数 定义 为 : 


Osign(w,) 
aw  "iwa(135) 
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当权 重 w 的 绝对 值 小 于 等 于 1 时， 梯度 为 1， 否则 为 0。 因 此 ， 
当权 重 w 绝 对 值 小 于 等 于 1 时 ,损失 c 对 权重 w 的 梯度 直接 等 于 损失 
c 对 权重 we 的 梯度 ， 这 就 是 直通 估计 。 权 重 w, 的 绝对 值 大 于 1 时, 损 
失 c 对 权重 w 的 梯度 为 0。 


训练 过 程 如 下 : 首先 权重 w; 随 机 初始 化 ; 然后 采用 公式 (13.3) 进 
行 前 向 计算 ,计算 损失 c 对 权重 wp 的 梯度 ,根据 公式 (13.4) 和 公式 (13.5) 
计算 损失 c 对 权重 w 的 梯度 ， 权 重 w, 进 行 更 新 ， 完 成 一 次 迭代 。 


前 面 是 以 传统 网 络 为 例 进行 介绍 的 ， 卷 积 网 络 也 完全 一 样 ， 因 为 
卷 积 运算 经 过 整理 后 变 为 矩阵 乘法 ,前 向 计算 和 公式 (13.3) 一 样 。 由 于 
代码 很 简单 ， 此 处 省 略 ， 读 者 可 以 参考 随 书 代码 。 代 码 实 现时 ， 没 有 
进行 优化 ， 只 展示 算法 原理 。 


13.2 XNOR 网 络 


仅 对 权重 进行 二 值 化 ， 和 矩阵 乘法 变 为 浮 点 数 加 减法 ,虽然 理论 上 
存储 量 能 获得 32 倍 的 提升 , 但 提速 效果 十 分 有 限 , 不 到 2 MRA 
活 二 值 化 为 1 十 1, 一 11， 则 和 矩 阵 乘 法 只 需要 进行 逻辑 同 或 (XNOR ) 
运算 和 对 十 1 进行 计数 , 极 大 提高 运算 速度 。XNOR 是 数字 迎 辑 运算 ， 
有 2 个 输入 端 和 1 个 输出 端 ， 当 输入 电 平 相同 时 ， 输 出 为 高 电 平 GE 
辑 1 )。 和 矩阵 乘法 由 向 量 点 积 构成 ,假设 2 个 二 值 化 向 量 为 v1=[ 十 1, 一 
1, +1, 十 各 和 v2=[ 一 1, 一 1 +1, 一 贡 ， 则 点 积 为 (十 D) x (一 D) 十 (一 D) 
x (一 ID) 十 (十 D) x (十 D) 十 (十 D x (一 DJ=( 一 DJ) 十 (十 D) 十 (十 D) 十 (一 D)=2 
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x num( 十 1) 一 length(v1)=0。 十 1 和 一 1 之 间 的 乘法 和 XNOR 一 致 ， 同 
号 为 十 1， 异 号 为 一 1。 对 XNOR 结果 中 的 十 1 进行 计数 ， 则 点 积 为 2 
倍 的 十 1 数目 减 去 向 量 的 长 度 ， 由 于 向 量 长 度 是 固定 值 ， 所 以 只 需 记 
录 十 1 数目 。 加 入 激活 二 值 化 的 前 向 运算 为 : 


Wy —sign (w,;), 0,— XWy, h,,—sign(ad;), 
Wy sign(w,), d,—hy, Wy, hy,— sign a;) (13.6) 


wy,—sign(w,,), a,—hy,, wp, h 
c-L(h,, Vo) 


n 0, 


有 几 个 细节 值得 注意 , 对 激活 进行 二 值 化 , 相当 于 引入 了 非 线性 ， 
称 为 二 值 化 激活 ， 所 以 不 再 需要 非 线性 激活 函数 。 输 入 x 不 能 进行 二 
值 化 ,否则 丢失 太 多 信息 ,效果 极 差 。 最 后 一 层 得 分 向 量 w 也 不 能 进 
行 二 值 化， 否则 得 分 向 量 不 是 十 1 就 是 一 1， 无 法 分 类 。 


XNOR 网 络 在 训练 过 程 和 权重 二 值 化 网 络 一 样 ， 只 是 非 线性 激活 
函数 被 符号 函数 取代 ， 利 用 公式 (13.5) 进 行 激活 梯度 的 传递 。 


13.3 权重 尺度 化 


XNOR 网 络 极 大 地 减 小 了 存储 空间 和 功 耗 ， 并 提高 了 运算 速度 ， 
但 由 于 二 值 化 带 来 信息 丢失 ， 和 浮 点 数 网 络 相 比 ， 性 能 下 降 很 大 。 为 
了 提高 性 能 ， 可 以 对 权重 进行 尺度 化 ， 这 个 过 程 仅 增加 极 少 的 运算 量 
和 存储 空间 。 和 矩阵 乘法 由 点 积 构 成 ， 二 值 化 尺度 化 后 的 权重 和 输入 的 
点 积 尽 可 能 与 浮 点 数 权重 和 输入 的 点 积 接近 ， 这 样 权 重量 化 带 来 的 信 
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息 丢 失 就 会 最 小 化 ， 网 络 性 能 损失 最 小 。 假 设 浮 点 数 权重 向 量 为 w， 
对 应 的 二 值 化 向 量 为 w=sign(w,)， 尺 度 因子 为 a (1 个 正 浮 点 数 )， 输 
入 向 量 为 x, 则 量化 后 的 点 积 pb=ax, ws 要 和 原始 点 积 pr=x, w; 尽 量 接 
近 ， 即 要 求 向 量 差 pr-pb 的 L2 范 数 最 小 ， 通 过 不 太 复 杂 的 数学 运算 ， 


得 最 优 a: 


a=15|wal (1377) 


即 向 量 w, 绝 对 值 的 平均 值 。 


ran 


公式 (13.7) 是 权重 为 向 量 时 的 结论 , 而 前 向 运算 中 权重 是 矩阵 , 此 
时 只 需 把 权重 矩阵 看 成 是 列 向 量 的 集合 ( 线性 代数 中 经 常 这 样 ), 每 个 
列 向 量 计算 尺度 因子 a;， 则 权重 和 矩阵 的 尺度 因子 是 各 个 尺度 因子 0 组 
成 的 行 向 量 a。 前 向 运算 为 : 


wy —sign(w,), C1=scale(w,), ay-coixwg, hj -sign(a;), 
wy-sign(w,;), c,;—scale(w,), a;-o;hy; wy, In;—sign(a;) 


( 13.8 ) 


"3,7 sign(w,,), a ,—scale(w,,), 8,7 G My i Wi, Hua, 
c=L(h,, Yo) 


即 先 计算 二 值 化 权重 矩阵 和 权重 尺度 向 量 ， 然 后 矩阵 乘法 ， 最 后 
二 值 化 激活 。 和 矩阵 乘法 是 先 计算 2 个 二 值 和 矩阵 的 乘积 (XNOR 运算 ), 
然后 再 与 权重 尺度 向 量 进行 逐 元 素 的 乘法 ， 由 于 权重 尺度 是 浮 点 数 ， 
这 会 增加 一 定 的 运算 量 ， 增 加 的 乘法 运算 量 等 于 矩阵 元 素数 量 ， 与 矩 
阵 乘 法 运算 量 相 比 ， 占 比 小 ， 所 以 影响 也 较 小 。 
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进行 梯度 反 向 传播 时 有 个 技巧 ， 即 把 二 值 化 权重 矩阵 和 尺度 因子 
向 量 的 逐 元 素 乘积 矩阵 w。 作 为 一 个 整体 进行 计算 ,公式 如 下 : 
w= signscale (Ww,), aj xw,,, hy=sign(a,), 
wa;=signscale(w,;), PS h,;—sign(a;) (13.9) 


w,,-—signscale(w,,), a,—hy, 4; Wans bj,—a, 
c— L(h, , yo) 


根据 链 式 法 则 得 到 损失 c 对 权重 w。 的 梯度 ,损失 c 对 权重 w, BIER 
度 为 : 


Oc Qc Osignscale(w,) ðc .1 Osign(w,) 
= = [ +a 
Ôw, ÔW, ôw, ôw, n ôw, (13.10) 


训练 过 程 和 权重 二 值 化 网 络 完全 一 样 。 


为 了 进一步 提高 性 能 ， 对 激活 进行 二 值 化 时 可 以 引入 尺度 因子 。 
这 个 技巧 对 性 能 提升 比较 小 ,但 引入 的 运算 量 和 临时 存储 空间 比较 大 ， 


读者 可 根据 情况 进行 选择 。 


实际 应 用 时 ， 由 于 网 络 第 1 层 和 最 后 1 层 的 权重 数量 少 ， 一般 不 
性 能 获得 极 大 提升 。 


pm 


进行 权重 量化 ， 而 是 采用 浮 点 数 权 习 


量化 技术 应 用 于 卷 积 网 络 时 ， 有 几 点 需要 注意 。 卷 积 网 络 模块 一 


H 


般 包括 批量 归 一 化 层 B、 二 值 化 激活 层 A、 卷 积 层 C 和 池 化 层 P， 这 
些 层 的 顺序 对 性 能 影响 很 大 ， 浮 点 数 网 络 的 顺序 为 C、B、A、P, 但 
对 于 量化 网 络 ， 顺 序 应 为 B、A、C、P。 因 为 经 过 二 值 化 激活 层 A 后 ， 
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激活 不 是 十 1 就 是 一 1, 如果 紧 跟 池 化 层 P, 则 激活 几乎 都 是 十 1。 卷 积 
网 络 中 大 量 存在 1 x 1 卷 积 ， 但 量化 网 络 中 ， 如 果 采 用 1 x 1 卷 积 ， 对 
性 能 损失 很 大 ,所 以 量化 网 络 中 不 能 有 1 x 1 卷 积 。 由 于 这 个 原因 , 量 
化 网 络 很 难 对 轻 量 网 络 进行 加 速 。 二 值 化 激活 层 可 以 取代 非 线性 激活 
层 ， 但 对 复杂 网 络 (如 AlexNet、VGG 和 ResNet )， 在 卷 积 层 后 插入 
非 线 性 层 (ReLU ) 能 提高 性 能 。 
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